CN107169057A - 一种重复图片的检测方法和装置 - Google Patents

一种重复图片的检测方法和装置 Download PDF

Info

Publication number
CN107169057A
CN107169057A CN201710288893.8A CN201710288893A CN107169057A CN 107169057 A CN107169057 A CN 107169057A CN 201710288893 A CN201710288893 A CN 201710288893A CN 107169057 A CN107169057 A CN 107169057A
Authority
CN
China
Prior art keywords
picture
class
usage information
memory usage
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710288893.8A
Other languages
English (en)
Other versions
CN107169057B (zh
Inventor
刘华星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710288893.8A priority Critical patent/CN107169057B/zh
Publication of CN107169057A publication Critical patent/CN107169057A/zh
Application granted granted Critical
Publication of CN107169057B publication Critical patent/CN107169057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种重复图片的检测方法和装置;本发明实施例采用获取应用进程的内存使用文件,然后,根据类的内使用信息得到多个图片类的属性的偏移,该属性包括图片数据缓存区和图片尺寸,根据多个实例的内存使用信息和多个图片类的属性的偏移获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片;该方案可以自动检测内存中的重复图片,无需人工处理,可以提高重复图片的检测效率。

Description

一种重复图片的检测方法和装置
技术领域
本发明涉及计算机技术领域,具体涉及一种重复图片的检测方法和装置。
背景技术
安卓系统中,有些应用程序会存在大量的重复图片,即相同图片,而重复的图片会占用系统内存资源,消耗大量的内存资源。
为了减低系统内存资源消耗,需要查找出系统内存中的重复图片,即检测重复图片。目前重复图片的检测方式主要是通过人工的方式在内存中查找重复图片;具体地,技术人员从内存中图片进行检索,比较检索到的图片,以确定是否有相同图片。
然而,目前重复图片的检测方式需要人工参与,人工处理关于比较慢且耗时,因此,会导致检测速度的效率比较低。
发明内容
本发明实施例提供一种重复图片的检测方法和装置,可以提高重复图片的检测效率。
本发明实施例提供一种重复图片的检测方法,包括:
获取应用进程的内存使用文件,所述内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息;
根据所述类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,所述属性包括图片数据缓存区和图片尺寸;
根据所述多个实例的内存使用信息和所述多个图片类的属性的偏移,获取多个图片对象的属性值,所述属性值包括图片数据缓存区地址值以及图片尺寸值;
根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;
从所述多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
相应的,本发明实施例还提供一种重复图片的检测装置,包括:
文件获取单元,用于获取应用进程的内存使用文件,所述内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息;
偏移获取单元,用于根据所述类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,所述属性包括图片数据缓存区和图片尺寸;
属性值获取单元,用于根据所述多个实例的内存使用信息和所述多个图片类的属性的偏移,获取多个图片对象的属性值,所述属性值包括图片数据缓存区地址值以及图片尺寸值;
内容获取单元,用于根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;
重复图片确定单元,用于从所述多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
本发明实施例采用获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息,然后,根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸,根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。该方案可以自动检测内存中的重复图片,无需人工处理,因此,可以提高重复图片的检测速度,进而提高重复图片的检测效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的重复图片的检测方法的流程示意图;
图1b是本发明实施例提供的hprof文件的数据结构示意图;
图1c是本发明实施例提供的HEAP_DUMP_SEGMENT的数据结构示意图;
图1d是本发明实施例提供的hprof文件中String的数据结构示意图;
图1e是本发明实施例提供的hprof文件中LOAD CLASS的数据结构示意图;
图1f是本发明实施例提供的hprof文件中CLASS DUMP的数据结构示意图;
图1g是本发明实施例提供的hprof文件中INSTANCE DUMP的数据结构示意图;
图1h是本发明实施例提供的hprof文件中原始数组DUMP的数据结构示意图;
图1i是本发明实施例提供的重复图片的示意图;
图2是本发明实施例提供的重复用图片的检测方法的另一流程示意图;
图3a是本发明实施例提供的重复图片的检测装置的第一种结构示意图;
图3b是本发明实施例提供的重复图片的检测装置的第二种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种重复图片的检测方法和装置。以下将分别进行详细说明。
实施例一、
本实施例将从重复图片的检测装置的角度进行描述,该检测装置具体可以集成在终端中,该终端可以为电脑、手机等设备。
一种重复图片的检测方法,包括:获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息,然后,根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸,根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
如图1a所示,该重复图片的检测方法的具体流程可以如下:
101、获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息。
其中,应用进程的内存使用文件可以为安卓系统中的heap dump(转储)文件,比如,可以为hprof文件。一个heap dump就是一个程序(如java进程)在某个时间点上的内存快照的快照,可以获知程序的哪些部分正在使用大部分的内存。一般heap dump保存为一种叫做hprof的二进制格式,因此,也称为hprof文件,如参考图1b,为hprof文件的结构示意图。
比如,当内存使用文件为hprof文件时,可以通过解析工具(如MAT对二进制的hprof文件进行解析。其中,MAT(Memory Analyzer Tool,内存分析工具)为java堆栈分析工具,用于分析发现和定位内存中的泄露和大开销等内存问题。
本实施例中,内存使用文件可以包括:文件头部信息、类加载信息、多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息等等。
其中,文件头部信息包括字符串信息,比如,参考图1b,当内存使用文件为hprof文件时,该文件头部信息可以包括HPROF_TAG_STRING。参考图1b,该类加载信息可以为文件中的HPROF_TAG_LOAD_CLASS。
该类的内存使用信息可以为安卓系统中的CLASS DUMP(类转储)信息,该实例的内存使用信息可以为安卓系统中的INSTANCE DUMP(实例转储)信息,该数组的内存使用信息可以为安卓系统中PRIMITIVE ARRAY DUMP(原始数组转储)信息。比如,参考图1b,当内存使用文件为hprof文件时,hprof文件包含HPROF_TAG_HEAP_DUMP_SEGMENT,该HPROF_TAG_HEAP_DUMP_SEGMENT存放的是内存中堆信息包括线程、类、实例、栈帧等。
参考图1c,HPROF_TAG_HEAP_DUMP_SEGMENT可以包括:CLASS DUMP、INSTANCEDUMP、PRIMITIVE ARRAY DUMP等信息。如图1c所示,u1-u4分别表示该信息位占用的字节数从1字节到4字节,ID表示的是一个u4信息。每个信息内容会有一个tag标识,该tag为一个u1的信息内容。
102、根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸。
其中,图片的格式有多种,比如,可以给为位图(BitMap)格式等。
本实施例中,图片类的属性(field)可以包括mbuffer(图片数据缓存区)和图片尺寸,该图片尺寸可以包括图片的长宽,或者图片的宽高,比如,mWindth、mHeight。
本实施例中,图片类的属性的偏移为图片类的属性在内存的偏移位置或者偏移值。实际应用中,要获取图片类的属性值,就需要先获取图片类的属性的偏移。
比如,以安卓系统为例,可以根据CLASS DUMP获取相应BitMap CLASS的属性(如mbuffer、mWindth、mHeight)的偏移。
本实施例可以根据每个类的内存使用信息(如CLASS DUMP)获取相应图片类的属性的偏移,从而得到多个图片类(如CLASS)的属性(图片数据缓存区、图片尺寸)的偏移。比如,可以针对每个类的内存使用信息进行解析,得到每个类的属性类型(type of field),然后,基于每个类的属性类型获取每个类(图片数据缓存区、图片尺寸)的属性的偏移,当该类为图片类如BitMap CLASS时,此时便可以得到图片类的属性(图片数据缓存区、图片尺寸)的偏移,如BitMap CLASS中mbuffer、mWindth、mHeight的偏移。
由于本发明实施例关注的图片类,即需要检测图片类,因此,为节省资源,本实施例可以针对每个类的内存使用信息进行解析,得到每个类的属性类型(type of field),然后,确定当前类是否为图片类,若是,则基于每个类的属性类型获取每个类的属性(图片数据缓存区、图片尺寸)的偏移。优选地,本实施例可以先获取需要关注的图片类标识,然后,基于图片类标识和类对象标识(Class object ID)来确定当前类是否为图片类。具体地,在获取内存使用文件之后,获取偏移之前,本实施例检测方法还可以包括:根据文件头部信息和类加载信息获取图片类标识;
此时,步骤“根据该类的内存使用信息获取相应图片类的属性的偏移”可以包括:
对该类的使用信息进行解析,得到该类的类对象标识和属性类型;
当该类对象标识与该图片类标识相同时,确定该类为图片类,并根据该属性类型获取该图片类的属性的偏移。
本实施例中获取的图片类标识为后续需要进行重复图片检测的类标识,本实施例可以通过内存使用文件的头部信息以及类加载信息来获取;具体地,可以对头部信息(如头部信息中的)进行解析,得到字符串的标识(String Id),并从字符串的标识中选取与图片类名相关的字符串的标识,即图片类名字符串的标识,然后,对类加载信息进行解析,利用类加载信息的字符串标识(String Name Id)确定待检测处理的图片类标识。即步骤“根据该文件头部信息和该类加载信息获取图片类标识”可以包括:
对该文件头部信息进行解析,得到字符串的标识;
从字符串的标识中获取图片类名字符串的标识;
对该内存使用文件中类加载信息进行解析,得类的字符串标识及其对应的类标识;
确定该类的字符串标识与该图片类名字符串的标识是否相同;
若相同,则确定该类标识为图片类标识。
其中,图片类名字符串的标识为图片类的名称字符串的标识,也就是表示图片类名称的字符串的标识。在对文件头部信息进行解析之后可以得多个字符串的标识,本实施例可以从多个字符串的标识中选取表示图片类名称的字符串的标识。比如,参考图1d,可以对hprof文件中的String字符信息进行解析,得到字符串的标识(String Id),如图1d中“Id(u4)”,然后,从String Id中选取图片类名字符串的标识(class name String Id)。
在获取图片类名字符串的标识之后,可以对类加载信息(如Load Class)进行解析,得到类的字符串标识及其对应的类标识;比如,参考图1e,在对Load Class信息解析后可以得到类的字符串标识(String Name Id)以及类标识,即“Id(u4)”,当类的字符串标识(String Name Id)与前面得到图片类名字符串的标识(class name String Id)相同时,表明当前类为图片类,该类的类标识即“Id(u4)”为图片类标识(class Id)。在得到图片类标识之后还可将其存放在某个对象中,如可以将图片类标识(class Id)存储在mBitmapClassId中。
本实施例在得到图片类标识之后,可以对类的使用信息如CLASS DUMP进行解析,以得到属性类型和类对象标识,如果类型对象标识与图片类标识相同,则表明当前类为图片类如Bitmap Class,此时,可以基于属性类型获取类中属性(图片数据缓存区、图片尺寸)的偏移。
比如,以安卓系统,且内存使用文件为hprof文件为例,可以根据hprof文件中STRING字符串信息和LOAD CLASS(类加载)信息获取图片类标识(如Bitmap Class Id)。当存在多个CLASS DUMP时,参考图1f,可以对某个CLASS DUMP进行解析,得到Class objectID、以及属性类型(type of field);确定该Class object ID是否与图片类标识(如BitmapClassId)相同,若相同,则认为当前Class为图片类(如Bitmap Class),此时,可以基于属性类型(type of field)获取到属性(图片数据缓存区、图片尺寸)的偏移,如BitMap CLASS中mbuffer、mWindth、mHeight的偏移。这样在分别对多个CLASS DUMP解析完成时,便可以得到多个图片类的属性的偏移。
其中,根据属性类型获取偏移的方式可以有多种,优选地,本实施例可以根据属性类型获取属性占用内存的位数,然后,基于该位数来获取属性的偏移。也即步骤“据该属性类型获取该图片类的属性的偏移”可以包括:
根据该属性类型获取该类的属性占用内存的位数;
根据该属性占用内存的位数,获取该图片类的属性的偏移。
比如,参考图1f,解析HEAP DUMP SEGMENT中的Class Dump,利用之前存储的classid找到对应的class块,然后就可以看到在该class块中就存储了类中各个属性的信息,如属性类型信息。本实施例可以遍历该类中的各属性,在遍历属性同时利用各个属性的占位情况计算各个属性的偏移。由于各属性的在占用内存的位数是与属性的属性类型相关的,每个类型占用的内存是固定(u1标识当前属性的类型),因此,可以基于属性类型来获取属性占用内存的位数,然后,基于该位数来获取属性偏移。例如当前属性为int则当前属性占用内存为4bit,如果当前属性前有一个float,一个char类型,则当前属性偏移为4+1=5。
103、根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值。
其中,图片尺寸值可以包括:图片长度值、图片宽度值,或者:图片长度值、图片高度值。
比如,可以根据多个INSTANCE DUMP和多个CLASS的属性的偏移,得到多个Bitmap对象的属性值如mBuffer、mWindth、mHeight的值。其中,mBuffer的值为mBuffer在内存中的地址值,。
具体地,可以针对每个实例的内存使用信息进行解析,得到实例属性值(如value),当该实例的类为图片类时,则可以基于该类的属性偏移从实例属性值中获取该类的实例属性值中获取图片对象的属性值。也即步骤“根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值”可以包括:
对当前实例的内存使用信息进行解析,得到当前实例的类对象标识以及实例属性值;
当该类对象标识与该图片类标识相同时,确定该当前实例的类为图片类;
根据该图片类的属性的偏移从该实例属性值中,获取图片对象的属性值;
将当前实施例的内存使用信息更新为下一个实例的内存使用信息,并返回执行对当前实例的内存使用信息进行解析的步骤,直到解析完所有实例的内存使用信息;
当该类型对象标识与图片类型标识不相同时,将当前实施例的内存使用信息更新为下一个实例的内存使用信息,并返回执行对当前实例的内存使用信息进行解析的步骤,直到解析完所有实例的内存使用信息。
比如,当属性包括mBuffer、mWindth、mHeight时,在获取mBuffer、mWindth、mHeight的偏移之后,参考图1g,可以对INSTANCE DUMP进行解析,当实例的类对象标识(Class object ID)与之前的图片类标识(Class ID)相同时,认为当前实例的类为图片类a,此时,可以根据图片类a的属性偏移从实例属性值(如value)中获取实例对象(此时实施对象为图片对象)的属性值;如mBuffer的偏移从实例属性值(如value)中获取mBuffer的地址值,根据mWindth、mHeight的偏移从实例属性值(如value)中获取mWindth、mHeight的值。比如,mBuffer的偏移为30,那么在得到实例属性值value(如value=0x100)后,可以从value+30(即0x100+30=0x130)得到的地址0x130。接着,对下一个INSTANCE DUMP进行解析执行前述相同步骤,直到解析完所有的INSTANCE DUMP。
104、根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据。
比如,可以根据多个BitMap对象的mBuffer值与多个PRIMITIVE ARRAY DUMP,获取多个BitMap对象的图片内容数据。
由于一般图片内容数据是利用一个byte的数组进行储存的,所以需要解析primitive array dump来获取图片内容数据。本实施例可以图片对象结构中可以知道mBuffer就是一个byte结构,那么如果找到一个byte数组地址包含在mBuffer地址内,如找到一个byte数组地址和mBuffer地址值一致,MAME可以认为该数组就是存储图片对象具体图片数据的数据区域。因此,本实施例可以,线对数组的内存使用信息进行解析,然后,确定数组的地址是否包含在某个图片对象的mBuffer地址之内,如是,则从数组内容数据中获取图片内容数据。即步骤“根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据”可以包括:
对当前数组的内存使用信息进行解析,得到数组的地址值以及数组内容数据;
确定该数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则确定该数组为该目标图片对象的图片数据缓存区,并从该数组内容数据中获取目标图片对象的图片内容数据;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到解析完所有数组的内存使用信息;
若否,则将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到解析完所有数组的内存使用信息。
例如,在某个PRIMITIVE ARRAY DUMP解析后,可以得到该ARRAY的地址和ARRAY内容数据,若该ARRAY的地址包含BitMap对象B的mBuffer地址内,那么可以确定该ARRAY为BitMap对象B的图片数据缓存区,此时,便可以从该ARRAY内容数据中获取BitMap对象B的图片内容数据,参考图1h,在对PRIMITIVE ARRAY DUMP解析后可以从图中“elements”(packedarray)获取图片内容数据,该图片内容数据为二进制数据。若该ARRAY的地址不包含任一BitMap对象的mBuffer地址内时,解析下一个PRIMITIVE ARRAY DUMP,直到解析完所有的PRIMITIVE ARRAY DUMP。
105、从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
比如,从多个图片对象中确定mWindth、mHeight相同、且图片内容数据(这里是数组的大小以及数组各个数据位的值)相同的BitMap对象,这些BitMap对象对应的图片是同一图片,因此,确定这些图片为重复图片。
为方便用户观看和后续重复图片的定位分析,本实施例还可以在确定相同图片对象对应的图片为重复图片之后,记录相同对象的mBuffer值以及图片内容数据,当解析完所有数组的内存使用信息之后,输出相同对象的mBuffer值以及图片内容数据,参考图1i,在通过步骤101-105检测之后,通过查看导出的图片信息发现的确实有重复的图片,例如其中7bc99000、7bca1000上的图片为重复图片。
本实施例可以通过将图片对象的尺寸值、图片内容数据进行比较得到相同图片对象,进而确定重复图片。可选地,为提高比较速度以及重复图片确定速度,本实施例可以在解析完所有数组的内存使用信息之后,再对数组进行解析,以实现图片对象的图片尺寸值、图片内容数据的比较。具体地,步骤“从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片”可以包括:
当解析完所有数组的内存使用信息之后,再次对当前数组的内存使用信息进行解析,得到数组的地址值;
确定该数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则判断该多个图片对象中是否存在与目标图片对象的图片尺寸值和图片内容数据均相同的其他图片对象;
若存在,则确定该目标对象与该其他图片对象为相同图片对象,以及确定该相同图片对象对应的图片为重复图片;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到再次解析完所有数组的内存使用信息;
若该数组的地址值不包含在目标图片对象的图片数据缓存区地址值内,或者不存在与目标图片对象的图片尺寸值和图片内容数据均相同的其他图片对象时,将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到再次解析完所有数组的内存使用信息。
其中,其他图片对象为多个图片对象中除了目标图片对象以外的图片对象。
比如,通过第一次对所有PRIMITIVE ARRAY DUMP解析后得到多个图片对象的图片尺寸值和图片内容数据,BitMap对象1、BitMap对象2……BitMap对象n的图片尺寸值和图片内容数据;再次对所有PRIMITIVE ARRAY DUMP解析,当对某个PRIMITIVE ARRAY DUMP解析后,如果该PRIMITIVE ARRAY DUMP的地址包含在BitMap对象i的mBuffer地址内,此时,可以确定除将BitMap对象i的其余BitMap对象中有是否存在与BitMap对象i图片尺寸值和图片内容数据均相同的BitMap对象,如存在,假设BitMap对象1、BitMap对象2与BitMap对象i图片尺寸值和图片内容数据均相同,此时,确定BitMap对象1、BitMap对象2、BitMap对象i为相同BitMap对象,并确定BitMap对象1、BitMap对象2、BitMap对象i对应的图片为重复图片;然后,再次对下一个PRIMITIVE ARRAY DUMP解析执行前述相同的步骤,以确定重复图片,直到再次解析完所有的PRIMITIVE ARRAY DUMP。
由上可知,本发明实施例采用获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息,然后,根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸,根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。该方案可以自动检测内存中的重复图片,无需人工处理,因此,可以提高重复图片的检测速度,进而提高重复图片的检测效率。
此外,该方案无需依赖于检测人员的分析经验,可以避免由于检测人员缺乏分析经验导致误判断重复图片的情况,可以提高重复图片的检测准确性。
实施例二、
根据实施例一所描述的方法,将通过举例来进一步说明。
本实施例将以检测安卓系统中的重复图片为例,来对本发明提供的检测方法来详细说明。
如图2所示,本发明提供了一种重复图片的检测方法,具体流程如下:
201、获取应用进程的hprof文件,该hprof文件包括:hprof头部信息、LOAD CLASS、多个CLASS DUMP、INSTANCE DUMP以及多个PRIMITIVE ARRAY DUMP。
该应用进程的内存使用文件可以hprof文件,参考图1b。
参考图1c,HPROF_TAG_HEAP_DUMP_SEGMENT可以包括:CLASS DUMP、INSTANCEDUMP、PRIMITIVE ARRAY DUMP等信息。如图1c所示,u1-u4分别表示该信息位占用的字节数从1字节到4字节,ID表示的是一个u4信息。每个信息内容会有一个tag标识,该tag为一个u1的信息内容。
202、对hprof头部信息进行解析,得到字符串的标识;并从字符串的标识中获取图片类名字符串的标识。
以对hprof文件中的String字符信息进行解析,得到字符串的标识(String Id),如图1d中“Id(u4)”,然后,从String Id中选取图片类名字符串的标识(class name StringId)。
203、对LOAD CLASS进行解析,得到CLASS的字符串标识及其对应的类标识。
参考图1f,可以对某个CLASS DUMP进行解析,得到Class object ID、以及属性类型(type of field);确定该Class object ID是否与图片类标识(如Bitmap ClassId)相同,若相同,则认为当前Class为图片类(如Bitmap Class),此时,可以基于属性类型(typeof field)获取到属性(图片数据缓存区、图片尺寸)的偏移,如BitMap CLASS中mbuffer、mWindth、mHeight的偏移。
204、当CLASS的字符串标识与图片类名字符串的标识相同时,确定类标识为BitMap类标识。
比如,参考图1e,在对Load Class信息解析后可以得到类的字符串标识(StringName Id)以及类标识,即“Id(u4)”,当类的字符串标识(String Name Id)与前面得到图片类名字符串的标识(class name String Id)相同时,表明当前类为图片类,该类的类标识即“Id(u4)”为图片类标识(class Id)。
205、对当前CLASS DUMP进行解析,得到类对象标识(Class object ID)、以及属性类型(type of field)。
206、判断该类对象标识是否与BitMap类标识相同,若相同,则执行步骤207,若不相同,则执行步骤209。
207、确定当前Class为Bitmap Class,根据属性类型获取mbuffer、mWindth、mHeight的偏移。
参考图1f,可以对某个CLASS DUMP进行解析,得到Class object ID、以及属性类型(type of field);确定该Class object ID是否与图片类标识(如Bitmap ClassId)相同,于属性类型(type of field)获取mbuffer、mWindth、mHeight。的偏移。
208、判断是否解析完所有CLASS DUMP,若否,则执行步骤209,若是,则执行步骤210。
209、对下一个CLASS DUMP进行解析,得到类对象标识(Class object ID)、以及属性类型(type of field),并返回执行步骤207。
210、对当前INSTANCE DUMP进行解析,得到类对象标识(Class object ID)以及实例属性值(value)。
211、判断该类对象标识是否与BitMap类标识相同,若相同,则执行步骤212,若不相同,则执行步骤214。
212、根据mbuffer、mWindth、mHeight的偏移从实例属性值中获取BitMap对象的mbuffer、mWindth、mHeight值。
参考图1g,可以对INSTANCE DUMP进行解析,当实例的类对象标识(Class objectID)与之前的图片类标识(Class ID)相同时,认为当前实例的类为图片类,此时,可以根据该图片类的属性偏移从实例属性值(如value)中获取mbuffer、mWindth、mHeight值。
其中,mbuffer的值为mbuffer的地址值。
本实施例可以,将mbuffer、mWindth、mHeight值存在一个BitMapInfo对象中。然后以mBuffer为key,BitMapinfo对象为value建立一个map对(mBufferToinfo)供后续使用。
213、判断是否解析完所有的INSTANCE DUMP,若否,则执行步骤214,若是,则执行步骤215。
214、对下一个INSTANCE DUMP进行解析,并返回执行步骤211。
215、对当前原始数组DUMP进行解析,得到数组的地址值以及数组内容数据。
216、确定数组的地址是否包含在BitMap对象的mbuffer地址内,若是,则执行步骤217,若否,则执行步骤218。
在构建mBuffer为key,BitMapinfo对象为value的map对象的情况下,可以确定数字的地址是否包含在BitMapinfo的key中。
217、确定当前数组为该BitMap对象的mbuffer,并从数组内容数据获取BitMap对象的图片内容数据。
其中,图片内容数据包括数组的大小以及数组各数据为的值。
本实施例可以构建map对象mBitMapbuffer,存储图片内容数据,以mBuffer为key,mBitMapbuffer对象为value建立一个map对供后续使用。
218、判断是否解析完所有的原始数组DUMP,若否,则执行步骤219,若是,则执行步骤220。
219、对下一个原始数组DUMP进行解析,并返回执行步骤216。
220、再次对当前原始数组DUMP进行解析,得到数组的地址值。
221、确定数组的地址是否包含在BitMap对象的mbuffer地址内,若是,则执行步骤222,若否,则执行步骤224。
222、确定是否存在与该BitMap对象mWindth、mHeight值、图片内容数据均相同的其他BitMap对象,若是,则执行步骤223,若否,则执行步骤224。
比如,以mbuffer地址为key遍历mBufferToinfo及其对应的mBitMapbuffer比较存储mWindth、mHeight,以及具体的图像内容数据(这个需要比较byte数组的大小以及数组各个数据位的值)是否相等,如果相等,则认为相等的几个图片是同一图片,将其mBuffer和二进制图片数据记录在一个HashSet中。
223、确定该BitMap对象与其他BitMap对象对应的BitMap为重复BitMap,记录BitMap对象的mbuffer值和图片内容数据。
224、判断是否解析完所有的原始数组DUMP,若否,则执行步骤225,若是,则执行步骤226。
225、再次对下一个原始数组DUMP进行解析,并返回执行步骤223。
226、输出记录的mbuffer值和图片内容数据。
比如,处理HashSet中记录数据,将二进制图片数据转为图像信息导出到磁盘,同时统计重复的图片数量和重复的类型。
由上可知,本发明实施例采用获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息,然后,根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸,根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。该方案可以自动检测内存中的重复图片,无需人工处理,因此,可以提高重复图片的检测速度,进而提高重复图片的检测效率。
此外,该方案无需依赖于检测人员的分析经验,可以避免由于检测人员缺乏分析经验导致误判断重复图片的情况,可以提高重复图片的检测准确性。
实施例三、
为了更好地实施以上方法,本发明实施例还提供重复图片的检测装置,如图3a所示,该重复图片的检测装置可以包括:文件获取单元301、偏移获取单元302、属性值获取单元303、内容获取单元304和重复图片确定单元305,如下:
(1)文件获取单元301;
文件获取单元301,用于获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息。
其中,应用进程的内存使用文件可以为安卓系统中的heap dump(转储)文件,比如,可以为hprof文件。一个heap dump就是一个程序(如java进程)在某个时间点上的内存快照的快照,可以获知程序的哪些部分正在使用大部分的内存。一般heap dump保存为一种叫做hprof的二进制格式,因此,也称为hprof文件。
内存使用文件可以包括:文件头部信息、类加载信息、多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息等等。
比如,该类的内存使用信息可以为安卓系统中的CLASS DUMP(类转储)信息,该实例的内存使用信息可以为安卓系统中的INSTANCE DUMP(实例转储)信息,该数组的内存使用信息可以为安卓系统中PRIMITIVE ARRAY DUMP(原始数组转储)信息。
(2)偏移获取单元302;
偏移获取单元302,用于根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸。
其中,图片的格式有多种,比如,可以给为位图(BitMap)格式等。
本实施例中,图片类的属性(field)可以包括mbuffer(图片数据缓存区)和图片尺寸,该图片尺寸可以包括图片的长宽,或者图片的宽高,比如,mWindth、mHeight。
本实施例中,图片类的属性的偏移为图片类的属性在内存的偏移位置或者偏移值。实际应用中,要获取图片类的属性值,就需要先获取图片类的属性的偏移。
比如,以安卓系统为例,可以根据CLASS DUMP获取相应BitMap CLASS的属性(如mbuffer、mWindth、mHeight)的偏移。
本实施例中,针对每个类的内存使用信息进行解析,得到每个类的属性类型(typeof field),然后,基于每个类的属性类型获取每个类(图片数据缓存区、图片尺寸)的属性的偏移,当该类为图片类如BitMap CLASS时,此时便可以得到图片类的属性(图片数据缓存区、图片尺寸)的偏移,如BitMap CLASS中mbuffer、mWindth、mHeight的偏移。
优选地,本实施例可以先获取需要关注的图片类标识,然后,基于图片类标识和类对象标识(Class object ID)来确定当前类是否为图片类,若是,则基于每个类的属性类型获取每个类的属性(图片数据缓存区、图片尺寸)的偏移。参考图3b,检测装置还包括:类标识获取单元306;
类标识获取单元306,用于在文件获取单元301获取内存使用文件之后,偏移获取单元获取偏移之前,根据该头部信息和该类加载信息获取图片类标识;
该偏移获取单元302,具体用于:
对该类的使用信息进行解析,得到该类的类对象标识和属性类型;
当该类对象标识与该图片类标识相同时,确定该类为图片类,并根据该属性类型获取该图片类的属性的偏移。
其中,类标识获取单元306可以具体用于:
对该文件头部信息进行解析,得到字符串的标识;
从字符串的标识中获取图片类名字符串的标识;
对该内存使用文件中类加载信息进行解析,得类的字符串标识及其对应的类标识;
确定该类的字符串标识与该图片类名字符串的标识是否相同;
若相同,则确定该类标识为图片类标识。
其中,移获取单元302,具体用于根据该属性类型获取该类的属性占用内存的位数,根据该属性占用内存的位数,获取该图片类的属性的偏移。
(3)属性值获取单元303;
属性值获取单元303,用于根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值。
其中,图片尺寸值可以包括:图片长度值、图片宽度值,或者:图片长度值、图片高度值。
比如,可以根据多个INSTANCE DUMP和多个CLASS的属性的偏移,得到多个Bitmap对象的属性值如mBuffer、mWindth、mHeight的值。其中,mBuffer的值为mBuffer在内存中的地址值,
其中,属性值获取单元303,可以具体用于:
对当前实例的内存使用信息进行解析,得到当前实例的类对象标识以及实例属性值;
当该类对象标识与该图片类标识相同时,确定该当前实例的类为图片类;
根据该图片类的属性的偏移从该实例属性值中,获取图片对象的属性值;
将当前实施例的内存使用信息更新为下一个实例的内存使用信息,并返回执行对当前实例的内存使用信息进行解析的步骤,直到解析完所有实例的内存使用信息。
比如,当属性包括mBuffer、mWindth、mHeight时,在获取mBuffer、mWindth、mHeight的偏移之后,参考图1g,可以对INSTANCE DUMP进行解析,当实例的类对象标识(Class object ID)与之前的图片类标识(Class ID)相同时,认为当前实例的类为图片类a,此时,可以根据图片类a的属性偏移从实例属性值(如value)中获取实例对象(此时实施对象为图片对象)的属性值;如mBuffer的偏移从实例属性值(如value)中获取mBuffer的地址值,根据mWindth、mHeight的偏移从实例属性值(如value)中获取mWindth、mHeight的值。
(4)内容获取单元304;
内容获取单元304,用于根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据。
比如,内容获取单元304可以根据多个BitMap对象的mBuffer值与多个PRIMITIVEARRAY DUMP,获取多个BitMap对象的图片内容数据。
由于一般图片内容数据是利用一个byte的数组进行储存的,所以需要解析primitive array dump来获取图片内容数据。因此,内容获取单元304可以具体用于:
对当前数组的内存使用信息进行解析,得到数组的地址值以及数组内容数据;
确定该数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则确定该数组为该目标图片对象的图片数据缓存区,并从该数组内容数据中获取目标图片对象的图片内容数据;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到解析完所有数组的内存使用信息。
例如,在某个PRIMITIVE ARRAY DUMP解析后,可以得到该ARRAY的地址和ARRAY内容数据,若该ARRAY的地址包含BitMap对象B的mBuffer地址内,那么可以确定该ARRAY为BitMap对象B的图片数据缓存区,此时,便可以从该ARRAY内容数据中获取BitMap对象B的图片内容数据。
(5)重复图片确定单元305;
重复图片确定单元305,用于该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
比如,从多个图片对象中确定mWindth、mHeight相同、且图片内容数据(这里是数组的大小以及数组各个数据位的值)相同的BitMap对象,这些BitMap对象对应的图片是同一图片,因此,确定这些图片为重复图片。
本实施例可以通过将图片对象的尺寸值、图片内容数据进行比较得到相同图片对象,进而确定重复图片。可选地,为提高比较速度以及重复图片确定速度,重复图片确定单元305,可以具体用于:
对当前数组的内存使用信息进行解析,得到数组的地址值以及数组内容数据;
确定该数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则确定该数组为该目标图片对象的图片数据缓存区,并从该数组内容数据中获取目标图片对象的图片内容数据;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到解析完所有数组的内存使用信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该重复图片的检测装置具体集成在终端,如笔记本电脑、平板电脑等设备中。
由上可知,本发明实施例通过文件获取单元301获取应用进程的内存使用文件,该内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息,然后,由偏移获取单元302根据该类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,该属性包括图片数据缓存区和图片尺寸,由属性值获取单元303根据该多个实例的内存使用信息和该多个图片类的属性的偏移,获取多个图片对象的属性值,该属性值包括图片数据缓存区地址值以及图片尺寸值,由内容获取单元304根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;由重复图片确定单元305从该多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。该方案可以自动检测内存中的重复图片,无需人工处理,因此,可以提高重复图片的检测速度,进而提高重复图片的检测效率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种重复图片的检测方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种重复图片的检测方法,其特征在于,包括:
获取应用进程的内存使用文件,所述内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息;
根据所述类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,所述属性包括图片数据缓存区和图片尺寸;
根据所述多个实例的内存使用信息和所述多个图片类的属性的偏移,获取多个图片对象的属性值,所述属性值包括图片数据缓存区地址值以及图片尺寸值;
根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;
从所述多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
2.如权利要求1所述的检测方法,其特征在于,所述内存使用文件还包括:文件头部信息和类加载信息;
在获取内存使用文件之后,获取偏移之前,所述检测方法还包括:根据所述头部信息和所述类加载信息获取图片类标识;
根据所述类的内存使用信息获取相应图片类的属性的偏移,包括:
对所述类的使用信息进行解析,得到所述类的类对象标识和属性类型;
当所述类对象标识与所述图片类标识相同时,确定所述类为图片类,并根据所述属性类型获取该图片类的属性的偏移。
3.如权利要求2所述的检测方法,其特征在于,根据所述属性类型获取该图片类的属性的偏移,包括:
根据所述属性类型获取所述类的属性占用内存的位数;
根据所述属性占用内存的位数,获取该图片类的属性的偏移。
4.如权利要求2或3所述的检测方法,其特征在于,根据所述多个实例的内存使用信息和所述多个图片类的属性的偏移,获取多个图片对象的属性值,包括:
对当前实例的内存使用信息进行解析,得到当前实例的类对象标识以及实例属性值;
当所述类对象标识与所述图片类标识相同时,确定所述当前实例的类为图片类;
根据该图片类的属性的偏移从所述实例属性值中,获取图片对象的属性值;
将当前实施例的内存使用信息更新为下一个实例的内存使用信息,并返回执行对当前实例的内存使用信息进行解析的步骤,直到解析完所有实例的内存使用信息。
5.如权利要求1所述的检测方法,其特征在于,根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据,包括:
对当前数组的内存使用信息进行解析,得到数组的地址值以及数组内容数据;
确定所述数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则确定所述数组为所述目标图片对象的图片数据缓存区,并从所述数组内容数据中获取目标图片对象的图片内容数据;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到解析完所有数组的内存使用信息。
6.如权利要求5所述的检测方法,其特征在于,从所述多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片,包括:
当解析完所有数组的内存使用信息之后,再次对当前数组的内存使用信息进行解析,得到数组的地址值;
确定所述数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则判断所述多个图片对象中是否存在与目标图片对象的图片尺寸值和图片内容数据均相同的其他图片对象;
若存在,则确定所述目标对象与所述其他图片对象为相同图片对象,以及确定所述相同图片对象对应的图片为重复图片;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到再次解析完所有数组的内存使用信息。
7.如权利要求2所述的检测方法,其特征在于,根据所述文件头部信息和所述类加载信息获取图片类标识,包括:
对所述文件头部信息进行解析,得到字符串的标识;
从字符串的标识中获取图片类名字符串的标识;
对所述内存使用文件中类加载信息进行解析,得类的字符串标识及其对应的类标识;
确定所述类的字符串标识与所述图片类名字符串的标识是否相同;
若相同,则确定所述类标识为图片类标识。
8.一种重复图片的检测装置,其特征在于,包括:
文件获取单元,用于获取应用进程的内存使用文件,所述内存使用文件包括:多个类的内存使用信息、多个实例的内存使用信息以及多个数组的内存使用信息;
偏移获取单元,用于根据所述类的内使用信息获取相应图片类的属性的偏移,得到多个图片类的属性的偏移,其中,所述属性包括图片数据缓存区和图片尺寸;
属性值获取单元,用于根据所述多个实例的内存使用信息和所述多个图片类的属性的偏移,获取多个图片对象的属性值,所述属性值包括图片数据缓存区地址值以及图片尺寸值;
内容获取单元,用于根据多个图片对象的图片数据缓存区地址值与多个数组的内存使用信息,获取多个图片对象的图片内容数据;
重复图片确定单元,用于从所述多个图片对象中确定图片尺寸值相同、且图片内容数据相同的相同图片对象,并确定相同图片对象对应的图片为重复图片。
9.如权利要求8所述的检测装置,其特征在于,所述内存使用文件还包括:文件头部信息和类加载信息;所述检测装置还包括:类标识获取单元;
所述类标识获取单元,用于在文件获取单元获取内存使用文件之后,偏移获取单元获取偏移之前,根据所述头部信息和所述类加载信息获取图片类标识;
所述偏移获取单元,用于:
对所述类的使用信息进行解析,得到所述类的类对象标识和属性类型;
当所述类对象标识与所述图片类标识相同时,确定所述类为图片类,并根据所述属性类型获取该图片类的属性的偏移。
10.如权利要求9所述的检测装置,其特征在于,所述属性值获取单元,用于:
对当前实例的内存使用信息进行解析,得到当前实例的类对象标识以及实例属性值;
当所述类对象标识与所述图片类标识相同时,确定所述当前实例的类为图片类;
根据该图片类的属性的偏移从所述实例属性值中,获取图片对象的属性值;
将当前实施例的内存使用信息更新为下一个实例的内存使用信息,并返回执行对当前实例的内存使用信息进行解析的步骤,直到解析完所有实例的内存使用信息。
11.如权利要求8所述的检测装置,其特征在于,所述内容获取单元,用于:
对当前数组的内存使用信息进行解析,得到数组的地址值以及数组内容数据;
确定所述数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则确定所述数组为所述目标图片对象的图片数据缓存区,并从所述数组内容数据中获取目标图片对象的图片内容数据;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到解析完所有数组的内存使用信息。
12.如权利要求11所述的检测装置,其特征在于,重复图片确定单元,用于:
当解析完所有数组的内存使用信息之后,再次对当前数组的内存使用信息进行解析,得到数组的地址值;
确定所述数组的地址值是否包含在目标图片对象的图片数据缓存区地址值内;
若是,则判断所述多个图片对象中是否存在与目标图片对象的图片尺寸值和图片内容数据均相同的其他图片对象;
若存在,则确定所述目标对象与所述其他图片对象为相同图片对象,以及确定所述相同图片对象对应的图片为重复图片;
将当前数组的内存使用信息更新为下一个数组的内存使用信息,并返回执行对当前数组的内存使用信息进行解析的步骤,直到再次解析完所有数组的内存使用信息。
13.如权利要求9所述的检测装置,其特征在于,所述类标识获取单元,用于:
对所述文件头部信息进行解析,得到字符串的标识;
从字符串的标识中获取图片类名字符串的标识;
对所述内存使用文件中类加载信息进行解析,得类的字符串标识及其对应的类标识;
确定所述类的字符串标识与所述图片类名字符串的标识是否相同;
若相同,则确定所述类标识为图片类标识。
CN201710288893.8A 2017-04-27 2017-04-27 一种重复图片的检测方法和装置 Active CN107169057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710288893.8A CN107169057B (zh) 2017-04-27 2017-04-27 一种重复图片的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710288893.8A CN107169057B (zh) 2017-04-27 2017-04-27 一种重复图片的检测方法和装置

Publications (2)

Publication Number Publication Date
CN107169057A true CN107169057A (zh) 2017-09-15
CN107169057B CN107169057B (zh) 2022-04-05

Family

ID=59813123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710288893.8A Active CN107169057B (zh) 2017-04-27 2017-04-27 一种重复图片的检测方法和装置

Country Status (1)

Country Link
CN (1) CN107169057B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102264A (zh) * 2018-08-29 2018-12-28 Oppo广东移动通信有限公司 一种电子红包检测方法、装置及终端设备
WO2020155488A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 图片查重方法、装置、计算机设备和存储介质
CN112835813A (zh) * 2021-03-04 2021-05-25 腾讯音乐娱乐科技(深圳)有限公司 处理内存中重复图片的方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377473A (zh) * 2012-04-19 2013-10-30 腾讯科技(深圳)有限公司 一种图像排重方法和装置
CN103646052A (zh) * 2013-11-28 2014-03-19 小米科技有限责任公司 一种图片信息的处理方法及装置
CN103984776A (zh) * 2014-06-05 2014-08-13 北京奇虎科技有限公司 一种识别重复图片的方法、图片搜索去重方法及其装置
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377473A (zh) * 2012-04-19 2013-10-30 腾讯科技(深圳)有限公司 一种图像排重方法和装置
CN103646052A (zh) * 2013-11-28 2014-03-19 小米科技有限责任公司 一种图片信息的处理方法及装置
CN103984776A (zh) * 2014-06-05 2014-08-13 北京奇虎科技有限公司 一种识别重复图片的方法、图片搜索去重方法及其装置
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102264A (zh) * 2018-08-29 2018-12-28 Oppo广东移动通信有限公司 一种电子红包检测方法、装置及终端设备
CN109102264B (zh) * 2018-08-29 2021-07-16 Oppo广东移动通信有限公司 一种电子红包检测方法、装置及终端设备
WO2020155488A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 图片查重方法、装置、计算机设备和存储介质
CN112835813A (zh) * 2021-03-04 2021-05-25 腾讯音乐娱乐科技(深圳)有限公司 处理内存中重复图片的方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN107169057B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN105468642A (zh) 数据的存储方法及装置
CN107169057A (zh) 一种重复图片的检测方法和装置
CN106326292A (zh) 数据结构和文件聚合、读取方法及装置
US10795960B2 (en) Managing bookmarks within a collaborative application
CN103150395B (zh) 基于ssd的文件系统目录路径解析方法
CN106708956B (zh) 一种基于多url规则集的http数据匹配方法
US20110252199A1 (en) Data Placement Optimization Using Data Context Collected During Garbage Collection
US7602972B1 (en) Method and apparatus for identifying white space tables within a document
EP3438845A1 (en) Data updating method and device for a distributed database system
CN104679495B (zh) 软件识别方法及装置
CN103914397B (zh) 闪存存储设备及其管理方法
CN112380838A (zh) 一种基于大数据的专利文件智能标引方法及装置
CN108900554A (zh) Http协议资产检测方法、系统、设备及计算机介质
CN110147434A (zh) 一种信息处理方法和电子设备
CN107153692B (zh) 一种字符串匹配的方法及设备
CN101777077B (zh) 嵌入式设备文件系统实现方法
US6480858B1 (en) Method and apparatus for finding nearest logical record in a hash table
CN109388617A (zh) 一种文件时间戳可信度的判定方法及装置
CN105518790B (zh) 数据写入的方法及装置
CN107992277A (zh) 图像数据输出方法和系统、计算机设备、存储介质
CN107122247A (zh) 一种静态占用图片的检测方法和装置
Sansurooah A forensics overview and analysis of USB flash memory devices
Deutschmann et al. Ubi est indicium? On forensic analysis of the UBI file system
JP5629438B2 (ja) ファイル管理装置及びその制御方法
CN108776578A (zh) 一种快速合并对象的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant