CN113110804B - 重复图片删除方法、装置、设备及存储介质 - Google Patents
重复图片删除方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113110804B CN113110804B CN202110482261.1A CN202110482261A CN113110804B CN 113110804 B CN113110804 B CN 113110804B CN 202110482261 A CN202110482261 A CN 202110482261A CN 113110804 B CN113110804 B CN 113110804B
- Authority
- CN
- China
- Prior art keywords
- picture
- target
- pictures
- deleted
- deletion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012217 deletion Methods 0.000 claims abstract description 169
- 230000037430 deletion Effects 0.000 claims abstract description 169
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 238000011161 development Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 31
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000003064 k means clustering Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013515 script Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理技术,提供一种重复图片删除方法、装置、计算机设备与存储介质,包括:扫描若干个项目文件中的所有图片,得到图片集;解析图片集,得到每张图片的图片特征,并根据图片特征进行聚类处理,得到目标聚类簇;获取目标聚类簇中每张图片的位置信息,并根据位置信息确定最优删除策略;根据所述最优删除策略将所述目标位置信息处的所述待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。本申请能够提高重复图片删除的效率,促进智慧城市的快速发展。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种重复图片删除方法、重复图片删除装置、计算机设备及计算机可读存储介质。
背景技术
在项目进展过程中,随着项目版本的不断更新迭代,针对项目开发的应用程序(Application,简称APP)会出现很多废弃的图片,如未被引用图片或者重复的图片,这些废弃的图片占用了APP的大部分体积。由于这些废弃图片占用的体积较大,需要将这些废弃图片删除以减少APP的体积。
在实现本发明的过程中,发明人发现现有技术至少存在以下技术问题:目前的废弃图片删除主要是针对未被引用图片的情况进行处理,缺少对图片有用但图片重复的处理方案。
因此,有必要提供一种项目重复图片删除方法,能够提高项目重复图片的删除效率。
发明内容
鉴于以上内容,有必要提出一种重复图片删除方法、重复图片删除装置、计算机设备及计算机可读存储介质,能够提高重复图片删除的效率。
本申请实施例第一方面提供一种重复图片删除方法,应用于目标服务器中,所述重复图片删除方法包括:
扫描若干个项目文件中的所有图片,得到图片集;
解析所述图片集,得到每张图片的图片特征,并根据所述图片特征进行聚类处理,得到目标聚类簇;
获取所述目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息;
根据所述最优删除策略将所述目标位置信息处的所述目标待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。进一步地,在本申请实施例提供的上述重复图片删除方法中,所述扫描若干个项目文件中的所有图片,得到图片集包括:
接收应用服务器发出的图片扫描指令;
根据所述图片扫描指令开启预设Shell命令解释器;
调用所述预设Shell命令解释器扫描若干个项目文件中的所有图片,得到图片集。
进一步地,在本申请实施例提供的上述重复图片删除方法中,所述根据所述图片特征进行聚类处理,得到目标聚类簇包括:
获取关于所述图片特征的特征说明文档;
基于预设的TF-IDF算法处理所述特征说明文档,计算每一项图片特征的词频与逆向文件频率;
将所述词频与所述逆向文件频率输入至预设权重计算模型中,得到所述图片特征的预设权重值;
选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇。
进一步地,在本申请实施例提供的上述重复图片删除方法中,所述获取所述目标聚类簇中每张图片的位置信息包括:
获取所述目标聚类簇中每张图片的属性信息;
解析所述属性信息,并检测所述属性信息中是否包含预设标记;
当检测结果为所述属性信息中包含所述预设标记时,确定所述预设标记处的信息为每张图片的位置信息。
进一步地,在本申请实施例提供的上述重复图片删除方法中,所述根据所述位置信息确定最优删除策略包括:
随机选取所述目标聚类簇中的图片作为待删除图片,并确定所述待删除图片的位置信息为初始位置信息;
获取所述待删除图片的数量以及删除所述初始位置信息处的图片需打开项目文件的次数;
调用预先训练好的删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间;
选取所述删除时间最短的待删除图片作为目标待删除图片;
解析所述目标待删除图片的属性信息,得到目标位置信息;
确定所述项目文件中除所述目标待删除图片之外的图片为基准图片;
根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略。
进一步地,在本申请实施例提供的上述重复图片删除方法中,所述方法还包括:
根据所述最优删除策略生成删除请求;
获取与所述目标服务器连接的附属服务器,并将所述删除请求分配至所述附属服务器中。
进一步地,在本申请实施例提供的上述重复图片删除方法中,所述将所述目标位置信息处的所述待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片包括:
获取所述基准图片的第一文件名;
获取所述待删除图片的第二文件名;
根据所述第一文件名替换所述目标位置信息处的所述第二文件名以将所述待删除图片替换为所述基准图片;
删除同一所述项目文件中重复的所述基准图片。
本申请实施例第二方面提供一种重复图片删除装置,所述重复图片删除装置包括:
文件扫描模块,用于扫描若干个项目文件中的所有图片,得到图片集;
聚类处理模块,用于解析所述图片集,得到每张图片的图片特征,并根据所述图片特征进行聚类处理,得到目标聚类簇;
策略确定模块,用于获取所述目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息;
图片删除模块,用于根据所述最优删除策略将所述目标位置信息处的所述目标待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述重复图片删除方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述重复图片删除方法。
本申请实施例提供的上述重复图片删除方法、重复图片删除装置、计算机设备以及计算机可读存储介质,通过摒弃人工清理造成的效率低下且清理不彻底的传统技术,快速有效的清理废弃图片,且清理较为彻底,解决了由于废弃图片引起的App体积过大的问题;此外,本申请获取目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,能够缩短删除重复图片所需的时间,提高重复图片删除的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的重复图片删除模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的重复图片删除方法的流程图。
图2是本申请实施例二提供的重复图片删除装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本发明实施例提供的重复图片删除方法由计算机设备执行,相应地,重复图片删除装置运行于计算机设备中。
图1是本申请第一实施方式的重复图片删除方法的流程图。所述重复图片删除方法可应用于目标服务器中。如图1所示,所述重复图片删除方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略:
S11、扫描若干个项目文件中的所有图片,得到图片集。
在本申请的至少一实施例中,在项目开发过程中,会开发出很多APP,并对APP不断更新迭代,在此过程中会出现很多废弃图片,如重复的图片,而过多的废弃图片会导致APP的体积过大,因此需要删除重复的图片,以避免重复的图片过多导致的APP体积过大的问题。重复的图片可以是指图片特征相同或相近,但图片名称不一致的图片。所述项目文件是指程序中用于存放APP会用到的一些资源,主要是图片的文件。在一实施例中,所述项目文件至少包括HTML文件、CSS文件和JS文件,每个项目文件下都会存放很多图片,图片包含相应的图片名称和图片路径等属性信息。
可选地,所述扫描若干个项目文件中的所有图片,得到图片集包括:
接收应用服务器发出的图片扫描指令;
根据所述图片扫描指令开启预设Shell命令解释器;
调用所述预设Shell命令解释器扫描若干个项目文件中的所有图片,得到图片集。
其中,所述图片扫描指令是指应用服务器发出的,用于对项目文件中的所有图片进行扫描的指令,所述应用服务器可以是项目开发所使用的服务器,所述图片扫描指令可以是触控指令或语音指令。本申请通过预设Shell命令解释器向目标服务器发送图片扫描请求,调用目标服务器内部的扫描功能来扫描所述项目文件中的所有图片,并将扫描到的图片存储至新建数组中,得到图片集。其中,所述预设Shell命令解释器可以通过写入shell脚本,调用大量系统内部的功能来执行程序、创建文档并以并行的方式协调各个程序的运行,其中,所述shell脚本可以是一些命令的集合。
S12、解析所述图片集,得到每张图片的图片特征,并根据所述图片特征进行聚类处理,得到目标聚类簇。
在本申请的至少一实施例中,所述图片集中的图片可以是JPG格式、PNG格式、TIF格式、BMP格式或其他格式的图片。所述图片特征可以包括图片细节特征、图片色彩特征、图片纹理特征或者其他图片特征向量,在此不做限制。其中,所述图片细节特征可以指图片的局部特征。每张图片的图片特征可以通过预设训练好的卷积神经网络提取,所述卷积神经网络为具有提取图片关键特征能力的卷积神经网络,所述卷积神经网络可以包括AlexNet网络、VGGNet网络、GoogleNet网络、ResNet网络或者其他的卷积神经网络,在此不做限制。
可选地,所述解析所述图片集,得到每张图片的图片特征包括:
预处理所述图片集,得到规范化的目标图片集;
调用预先训练好的图片特征提取模型处理所述目标图片集,得到每张图片的图片特征。
其中,将图片集进行预处理的目的是将图片集转换为规范图片。在一实施例中,所述将所述图片集进行预处理包括:将所述图片转换为预设图片格式;和/或将所述图片转换为预设尺寸;和/或将所述图片转换为预设颜色。所述图片特征提取模型的训练过程为现有技术,在此不再赘述。
示例性地,将所述图片转换为预设图片格式可以是将所述图片转换为JPG图片。例如,所述图片集中除了JPG图片,还包括PDF图片和TIF图片,则将所述图片集中的PDF图片和TIF图片转换为JPG图片。将所述图片转换为预设尺寸可以是将所述图片转换为224×224(即行像素和列像素均为224)的图片。将图片转换为预设尺寸就是进行图片尺寸的归一化,也就是把长宽像素变为相同的值。可以将图片按预设尺寸均匀切分成若干小块,对于每一个小块,计算其所覆盖的原图像素的平均值。将所述图片转换为预设颜色可以是将所述图片转换为RGB图片。
在本申请的至少一实施例中,在调用预先训练好的卷积神经网络处理得到所述图片集中每张图片的图片特征后,需对每张图片进行聚类处理,将相同或者相近图片特征的图片存储至一个聚类簇中。所述目标聚类簇中用于存储相同或者相近特征的图片。其中,对特征向量进行聚类的方法有多种,例如是K-Means聚类方法或是基于密度的聚类方法等,在此不做限定。由于K-Means聚类方法可以在很大程度上提高聚类结果的质量和效率,因此,优选地,可以采用K-Means聚类方法对特征向量进行聚类,能够提高图片聚类效率,从而提高重复图片删除效率。
可选地,所述根据所述图片特征进行聚类处理,得到目标聚类簇包括:
获取关于所述图片特征的特征说明文档;
基于预设的TF-IDF算法处理所述特征说明文档,计算每一项图片特征的词频与逆向文件频率;
将所述词频与所述逆向文件频率输入至预设权重计算模型中,得到所述图片特征的预设权重值;
选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇。
其中,所述图片特征可以包括图片细节特征、图片色彩特征、图片纹理特征或者其他图片特征向量。所述特征说明文档存储于区块链的目标节点中,用于说明图片特征对相同或相近图片的判断标准,所述特征说明文档中包含每个图片特征的特征说明以及每个图片特征对相同或相近图片的判断说明。本申请调用预设的TF-IDF算法处理所述特征说明文档,能够计算出每一项图片特征在所述特征说明文档中的词频以及逆向文件频率,其中,调用TF-IDF算法得到词频及逆向文件频率属于现有技术,在此不再赘述。在计算出每一项图片特征的词频与逆向文件频率之后,将所述词频与所述逆向文件频率输入至预设权重计算模型中,所述预设权重计算模型为预先设置的用于计算权重值的模型。可以理解的是,不同的权重对应不同图片特征的重要程度,权重越大,该图片特征对相同或相近图片的判断重要程度越大;权重越小,该图片特征对相同或相近图片的判断重要程度越小。
本申请选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇。所述预定权重阈值为预先设置的值。所述目标图片特征的数量可以为1个,也可以为多个。可以理解的是,当所述目标图片特征的数量为1个时,例如,所述目标图片特征为图片细节特征,则只需将所述图片细节特征相近或相同的图片存于某一聚类簇中即可,存储在该聚类簇中的图片的色彩特征可以相同或相近,也可以不相同或不相近。当所述目标图片特征的数量为2个时,例如,所述目标图片提特征为图片细节特征与图片色彩特征,则需将所述图片细节特征相近或相同,且所述图片色彩特征也相近或相同的图片存于某一聚类簇中。
其中,以采用K-Means聚类方法对特征向量进行聚类为例,所述选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇可以包括:从N个图片的图片集中随机选择k个图片,分别作为k个聚类簇中每一个聚类簇的中心点;基于每一个聚类簇的中心点,计算n个图片中所剩下的N-k个图片与聚类簇的中心点的距离,所述距离为所述预设权重值大于预定权重阈值的图片特征间的距离;根据每个图片距离k个聚类簇的中心点的最小距离重新对每个图片所属聚类簇进行划分;重新计算有变化的聚类簇的中心点;计算标准测度函数;当所述标准测度函数满足预设条件,确定当前的聚类簇为目标聚类簇;当所述标准测度函数不满足预设条件时,循环执行根据每个图片距离k个聚类簇的中心点的最小距离重新对每个图片所属聚类簇进行划分、重新计算有变化的聚类簇的中心点以及计算所述标准测度函数并判断是否满足条件,直至所述标准测度函数满足预设条件。其中,所述标准测度函数为预先设置的函数,所述预设条件为所述标准测度函数收敛。
本申请通过对一个或多个图片特征进行聚类,能够对庞大复杂的图片集进行多维度聚类,可以将图片集聚合成多个类别,减少了原始图片集的庞大复杂。通过多维度聚类后,能够在图片集中便捷快速地找到有用信息。
S13、获取所述目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息。
在本申请的至少一实施例中,所述位置信息是指图片在项目文件中的路径,根据所述位置信息能够准确获取图片在具体项目文件以及在具体项目文件中的位置。所述最优删除策略是指使得项目重复图片删除时间最短的策略。所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息,其中,所述基准图片是指若干张相同图片中保留的图片,所述目标待删除图片是指若干张相同图片中需要被删除的图片,所述目标位置信息是指所述目标待删除图片所在项目文件中的路径。
可选地,所述获取所述目标聚类簇中每张图片的位置信息包括:
获取所述目标聚类簇中每张图片的属性信息;
解析所述属性信息,并检测所述属性信息中是否包含预设标记;
当检测结果为所述属性信息中包含所述预设标记时,确定所述预设标记处的信息为每张图片的位置信息。
其中,项目文件中的每张图片均携带有属性信息,所述属性信息可以包括图片的位置信息、图片的色彩信息、图片大小信息、图片格式信息或者图片名称信息等,上述信息按照预设数据格式进行排列,所述预设数据格式是指预先设置的格式。所述预设标记是指用于标识所述位置信息的标记,所述预设标记可以是数字标记、颜色标记或者字母标记,在此不做限制。
可选地,所述根据所述位置信息确定最优删除策略包括:
随机选取所述目标聚类簇中的图片作为待删除图片,并确定所述待删除图片的位置信息为初始位置信息;
获取所述待删除图片的数量以及删除所述初始位置信息处的图片需打开项目文件的次数;
调用预先训练好的删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间;
选取所述删除时间最短的待删除图片作为目标待删除图片;
解析所述目标待删除图片的属性信息,得到目标位置信息;
确定所述项目文件中除所述目标待删除图片之外的图片为基准图片;
根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略。
其中,所述删除时间计算模型的训练步骤可以包括:获取历史图片删除数据,并将所述历史图片删除数据划分为训练集与测试集,所述历史图片删除数据包括删除图片、删除图片的数量、打开项目文件的次数以及删除图片的时间;根据所述训练集训练初始删除时间计算模型,得到训练好的删除时间计算模型;根据所述测试集检测所述删除时间计算模型的准确性是否满足预设准确性要求;当检测结果为所述删除时间计算模型的准确性满足预设准确性要求时,确定所述删除时间计算模型训练完成,并根据训练完成的所述删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间。其中,所述预设准确性要求是指预先设置的、所述删除时间计算模型应满足的准确度阈值。
其中,所述目标待删除图片的属性信息中包含图片的路径属性,也即图片的目标位置信息。示例性地,所述解析所述目标待删除图片的属性信息,得到目标位置信息可以包括:获取所述目标待删除图片的属性信息;解析所述属性信息中的路径关键字,得到所述路径关键字对应的目标位置信息。其中,所述路径关键字是指预先设置的用于标识图片的路径属性的关键字,通过查询该关键字,得到该关键字对应的内容,并将该关键字对应的内容作为目标位置信息。
其中,所述根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略可以包括:获取预先设置的删除策略模板;确定所述删除策略模型中的初始化基准图片、初始化待删除图片以及初始化位置信息;分别将所述初始化基准图片更新为所述基准图片、将所述、初始化待删除图片替换为所述目标待删除图片以及将所述初始化位置信息替换为所述目标位置信息,得到最优删除策略。其中,所述删除策略模板可以为系统人员预先设置的模板。
示例性地,当所述目标聚类簇的数量为一个时,此时,所述项目文件中重复图片的类型是单一的。例如,项目文件1中包含重复图片A1、A2与A3,项目文件2中包含重复图片A1、A1与A3,项目文件3中包含重复图片A1。随机选取图片A1为待删除图片,则需要打开项目文件1、2与3,待删除图片的数量为4个;随机选取图片A2为待删除图片,则需要打开项目文件1,待删除图片的数量为1个;随机选取图片A3为待删除图片,则需要打开项目文件1、2,待删除图片的数量为2个。调用预先训练好的删除时间计算模型处理可知,以图片A1作为基准图片,选取图片A2与A3作为目标待删除图片时,对应的删除时间最短。示例性地,当所述目标聚类簇的数量为多个时,此时,所述项目文件中重复图片的类型为若干个。例如,项目文件1中包含重复图片A1、A2与A3以及重复图片B1、B2与B3,项目文件2中包含重复图片A1、A1与A3以及重复图片B1、B1与B3,项目文件3中包含重复图片A1以及重复图片B1。在一实施例中,所述方法还包括:获取所述目标聚类簇的数量;创建对应所述目标聚类簇的数量的删除进程;调用所述删除进程执行重复图片删除操作。本实施例通过创建多个删除进程的方式执行重复图片删除操作,能够提高重复图片删除的效率。在其他实施例中,也可以调用预先训练好的删除时间计算模型综合处理多个类型的重复图片,确定删除多个类型的重复图片的最优删除策略。
S14、根据所述最优删除策略将所述目标位置信息处的所述目标待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。
在本申请的至少一实施例中,根据所述最优删除策略将所述目标位置信息处的所述目标待删除图片替换为所述基准图片,此时,同一所述项目文件中的所述基准图片的数量可以为1个,也可以为多个。当同一所述项目文件中的所述基准图片的数量为多个时,删除重复的所述基准图片,以彻底删除程序中项目文件中的重复图片。
可选地,由于所述基准图片与所述待删除图片相比,主要在于图片名称不同,可通过图片名称替换的方式进行图片替换,能够提高重复图片的删除效率。
所述将所述目标位置信息处的所述待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片包括:
获取所述基准图片的第一文件名;
获取所述待删除图片的第二文件名;
根据所述第一文件名替换所述目标位置信息处的所述第二文件名以将所述待删除图片替换为所述基准图片;
删除同一所述项目文件中重复的所述基准图片。
其中,在根据所述基准图片替换所述目标位置信息处的所述待删除图片之后,所述项目文件中的重复图片的文件名均一致,此时,可对相同文件名的多个重复图片采用仅保留一张图片,删除其余相同图片的方式,删除项目文件中的重复图片。
在本申请的至少一实施例中,可选地,所述方法还包括:
根据所述最优删除策略生成删除请求;
获取与所述目标服务器连接的附属服务器,并将所述删除请求分配至所述附属服务器中。所述删除请求是指用于删除所述目标位置信息处的待删除图片的请求,所述删除请求是指预定数据格式的请求,通过将所述最优删除策略转换为所述预定数据格式的请求,能够得到删除请求。所述最优删除策略对应生成的删除请求的数量可以为1个,也可以为多个。本申请提供一种目标服务器集群,所述目标服务器集群包括目标服务器以及与所述目标服务器连接的附属服务器。所述目标服务器是指生成所述删除请求的服务器,所述附属服务器是指与所述目标服务器关联的服务器。所述目标服务器集群是指包含一个目标服务器以及多个附属服务器的集群,所述附属服务器的数量可以为1个,也可以为多个,在此不作限制。本申请通过调用与所述目标服务器连接的附属服务器执行所述删除请求,能够避免删除请求过多时所述目标服务器超负载运行,提高了重复图片的删除效率。
在本申请的至少一实施例中,所述附属服务器的数量可以根据所述删除请求的删除数量确定,所述删除数量越大,其对应的所述附属服务器的数量也越大。可选地,获取目标服务器对应的附属服务器还包括:
获取所述删除请求的删除数量;
确定所述删除数量对应的删除数量级;
根据所述删除数量级确定附属服务器的数量。
其中,所述删除数量与所述删除数量级间存在预先设置的第一映射关系,所述删除数量级与所述附属服务器的数量间存在预先设置的第二映射关系,通过所述删除数量遍历所述第一映射关系,能够确定对应所述删除数量的删除数量级,所述删除数量级可以为低级、中级与高级。通过所述删除数量级遍历所述第二映射关系,能够确定对应所述删除数量级的附属服务器的数量,避免调用过多或过少的附属服务器造成的资源浪费或重复图片删除时间长的问题。
本申请实施例提供的上述重复图片删除方法,通过摒弃人工清理造成的效率低下且清理不彻底的传统技术,快速有效的清理废弃图片,且清理较为彻底,解决了由于废弃图片引起的App体积过大的问题;此外,本申请获取目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,能够缩短删除重复图片所需的时间,提高重复图片删除的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的重复图片删除模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的重复图片删除装置的结构图。
在一些实施例中,所述重复图片删除装置20可以包括多个由计算机程序段所组成的功能模块。所述重复图片删除装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)重复图片删除的功能。
本实施例中,所述重复图片删除装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:文件扫描模块201、聚类处理模块202、策略确定模块203以及图片删除模块204。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述文件扫描模块201可以用于扫描若干个项目文件中的所有图片,得到图片集。
在本申请的至少一实施例中,在项目开发过程中,会开发出很多APP,并对APP不断更新迭代,在此过程中会出现很多废弃图片,如重复的图片,而过多的废弃图片会导致APP的体积过大,因此需要删除重复的图片,以避免重复的图片过多导致的APP体积过大的问题。所述项目文件是指程序中用于存放APP会用到的一些资源,主要是图片的文件。在一实施例中,所述项目文件至少包括HTML文件、CSS文件和JS文件,每个项目文件下都会有很多图片,图片有相应的图片名称和图片路径等属性信息。
可选地,所述扫描若干个项目文件中的所有图片,得到图片集包括:
接收应用服务器发出的图片扫描指令;
根据所述图片扫描指令开启预设Shell命令解释器;
调用所述预设Shell命令解释器扫描若干个项目文件中的所有图片,得到图片集。
其中,所述图片扫描指令是指应用服务器发出的,用于对项目文件中的所有图片进行扫描的指令,所述应用服务器可以是项目开发所使用的服务器,所述图片扫描指令可以是触控指令或语音指令。本申请通过Shell命令解释器,向目标服务器发送请求,调用目标服务器内部的扫描功能来扫描项目文件中的所有图片,并将扫描到的图片存储至数组中,得到图片集。其中,Shell命令解释器通过写入shell脚本,可以调用大量系统内部的功能来执行程序、创建文档并以并行的方式协调各个程序的运行,其中,shell脚本可以是一些命令的集合。
所述聚类处理模块202可以用于解析所述图片集,得到每张图片的图片特征,并根据所述图片特征进行聚类处理,得到目标聚类簇。
在本申请的至少一实施例中,所述图片集中的图片可以是JPG格式、PNG格式、TIF格式、BMP格式或其他格式的图片。所述图片特征可以包括图片细节特征、图片色彩特征、图片纹理特征或者其他图片特征向量,在此不做限制。其中,所述图片细节特征可以指图片的局部特征。每张图片的图片特征可以通过预设训练好的卷积神经网络提取,所述卷积神经网络为具有提取图片关键特征能力的卷积神经网络,所述卷积神经网络可以包括AlexNet网络、VGGNet网络、GoogleNet网络、ResNet网络或者其他的卷积神经网络,在此不做限制。
可选地,所述解析所述图片集,得到每张图片的图片特征包括:
预处理所述图片集,得到规范化的目标图片集;
调用预先训练好的图片特征提取模型处理所述目标图片集,得到每张图片的图片特征。
其中,将图片集进行预处理的目的是将图片集转换为规范图片。在一实施例中,所述将所述图片集进行预处理包括:将所述图片转换为预设图片格式;和/或将所述图片转换为预设尺寸;和/或将所述图片转换为预设颜色。所述图片特征提取模型的训练过程为现有技术,在此不再赘述。
示例性地,将所述图片转换为预设图片格式可以是将所述图片转换为JPG图片。例如,所述图片集中除了JPG图片,还包括PDF图片和TIF图片,则将所述图片集中的PDF图片和TIF图片转换为JPG图片。将所述图片转换为预设尺寸可以是将所述图片转换为224×224(即行像素和列像素均为224)的图片。将图片转换为预设尺寸就是进行图片尺寸的归一化,也就是把长宽像素变为相同的值。可以将图片按预设尺寸均匀切分成若干小块,对于每一个小块,计算其所覆盖的原图像素的平均值。将所述图片转换为预设颜色可以是将所述图片转换为RGB图片。
在本申请的至少一实施例中,在调用预先训练好的卷积神经网络处理得到所述图片集中每张图片的图片特征后,需对每张图片进行聚类处理,将相同或者相近图片特征的图片存储至一个聚类簇中。所述目标聚类簇中用于存储相同或者相近特征的图片。其中,对特征向量进行聚类的方法有多种,例如是K-Means聚类方法或是基于密度的聚类方法等,在此不做限定。由于K-Means聚类方法可以在很大程度上提高聚类结果的质量和效率,因此,优选地,可以采用K-Means聚类方法对特征向量进行聚类,能够提高图片聚类效率,从而提高重复图片删除效率。
可选地,所述根据所述图片特征进行聚类处理,得到目标聚类簇包括:
获取关于所述图片特征的特征说明文档;
基于预设的TF-IDF算法处理所述特征说明文档,计算每一项图片特征的词频与逆向文件频率;
将所述词频与所述逆向文件频率输入至预设权重计算模型中,得到所述图片特征的预设权重值;
选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇。
其中,所述图片特征可以包括图片细节特征、图片色彩特征、图片纹理特征或者其他图片特征向量。所述特征说明文档存储于区块链的目标节点中,用于说明图片特征对相同或相近图片的判断标准,所述特征说明文档中包含每个图片特征的特征说明以及每个图片特征对相同或相近图片的判断说明。本申请调用预设的TF-IDF算法处理所述特征说明文档,能够计算出每一项图片特征在所述特征说明文档中的词频以及逆向文件频率,其中,调用TF-IDF算法得到词频及逆向文件频率属于现有技术,在此不再赘述。在计算出每一项图片特征的词频与逆向文件频率之后,将所述词频与所述逆向文件频率输入至预设权重计算模型中,所述预设权重计算模型为预先设置的用于计算权重值的模型。可以理解的是,不同的权重对应不同图片特征的重要程度,权重越大,该图片特征对相同或相近图片的判断重要程度越大;权重越小,该图片特征对相同或相近图片的判断重要程度越小。
本申请选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇。所述预定权重阈值为预先设置的值。所述目标图片特征的数量可以为1个,也可以为多个。可以理解的是,当所述目标图片特征的数量为1个时,例如,所述目标图片特征为图片细节特征,则只需将所述图片细节特征相近或相同的图片存于某一聚类簇中即可,存储在该聚类簇中的图片的色彩特征可以相同或相近,也可以不相同或不相近。当所述目标图片特征的数量为2个时,例如,所述目标图片提特征为图片细节特征与图片色彩特征,则需将所述图片细节特征相近或相同,且所述图片色彩特征也相近或相同的图片存于某一聚类簇中。
其中,以采用K-Means聚类方法对特征向量进行聚类为例,所述选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇可以包括:从N个图片的图片集中随机选择k个图片,分别作为k个聚类簇中每一个聚类簇的中心点;基于每一个聚类簇的中心点,计算n个图片中所剩下的N-k个图片与聚类簇的中心点的距离,所述距离为所述预设权重值大于预定权重阈值的图片特征间的距离;根据每个图片距离k个聚类簇的中心点的最小距离重新对每个图片所属聚类簇进行划分;重新计算有变化的聚类簇的中心点;计算标准测度函数;当所述标准测度函数满足预设条件,确定当前的聚类簇为目标聚类簇;当所述标准测度函数不满足预设条件时,循环执行根据每个图片距离k个聚类簇的中心点的最小距离重新对每个图片所属聚类簇进行划分、重新计算有变化的聚类簇的中心点以及计算所述标准测度函数并判断是否满足条件,直至所述标准测度函数满足预设条件。其中,所述标准测度函数为预先设置的函数,所述预设条件为所述标准测度函数收敛。
本申请通过对一个或多个图片特征进行聚类,能够对庞大复杂的图片集进行多维度聚类,可以将图片集聚合成多个类别,减少了原始图片集的庞大复杂。通过多维度聚类后,能够在图片集中便捷快速地找到有用信息。
所述策略确定模块203可以用于获取所述目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息。
在本申请的至少一实施例中,所述位置信息是指图片在项目文件中的路径,根据所述位置信息能够准确获取图片在具体项目文件以及在具体项目文件中的位置。所述最优删除策略是指使得项目重复图片删除时间最短的策略。所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息,其中,所述基准图片是指若干张相同图片中保留的图片,所述目标待删除图片是指若干张相同图片中需要被删除的图片,所述目标位置信息是指所述目标待删除图片所在项目文件中的路径。
可选地,所述获取所述目标聚类簇中每张图片的位置信息包括:
获取所述目标聚类簇中每张图片的属性信息;
解析所述属性信息,并检测所述属性信息中是否包含预设标记;
当检测结果为所述属性信息中包含所述预设标记时,确定所述预设标记处的信息为每张图片的位置信息。
其中,项目文件中的每张图片均携带有属性信息,所述属性信息可以包括图片的位置信息、图片的色彩信息、图片大小信息、图片格式信息或者图片名称信息等,上述信息按照预设数据格式进行排列,所述预设数据格式是指预先设置的格式。所述预设标记是指用于标识所述位置信息的标记,所述预设标记可以是数字标记、颜色标记或者字母标记,在此不做限制。
可选地,所述根据所述位置信息确定最优删除策略包括:
随机选取所述目标聚类簇中的图片作为待删除图片,并确定所述待删除图片的位置信息为初始位置信息;
获取所述待删除图片的数量以及删除所述初始位置信息处的图片需打开项目文件的次数;
调用预先训练好的删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间;
选取所述删除时间最短的待删除图片作为目标待删除图片;
解析所述目标待删除图片的属性信息,得到目标位置信息;
确定所述项目文件中除所述目标待删除图片之外的图片为基准图片;
根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略。
其中,所述删除时间计算模型的训练步骤可以包括:获取历史图片删除数据,并将所述历史图片删除数据划分为训练集与测试集,所述历史图片删除数据包括删除图片、删除图片的数量、打开项目文件的次数以及删除图片的时间;根据所述训练集训练初始删除时间计算模型,得到训练好的删除时间计算模型;根据所述测试集检测所述删除时间计算模型的准确性是否满足预设准确性要求;当检测结果为所述删除时间计算模型的准确性满足预设准确性要求时,确定所述删除时间计算模型训练完成,并根据训练完成的所述删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间。其中,所述预设准确性要求是指预先设置的、所述删除时间计算模型应满足的准确度阈值。
其中,所述目标待删除图片的属性信息中包含图片的路径属性,也即图片的目标位置信息。示例性地,所述解析所述目标待删除图片的属性信息,得到目标位置信息可以包括:获取所述目标待删除图片的属性信息;解析所述属性信息中的路径关键字,得到所述路径关键字对应的目标位置信息。其中,所述路径关键字是指预先设置的用于标识图片的路径属性的关键字,通过查询该关键字,得到该关键字对应的内容,并将该关键字对应的内容作为目标位置信息。
其中,所述根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略可以包括:获取预先设置的删除策略模板;确定所述删除策略模型中的初始化基准图片、初始化待删除图片以及初始化位置信息;分别将所述初始化基准图片更新为所述基准图片、将所述、初始化待删除图片替换为所述目标待删除图片以及将所述初始化位置信息替换为所述目标位置信息,得到最优删除策略。其中,所述删除策略模板可以为系统人员预先设置的模板。
示例性地,当所述目标聚类簇的数量为一个时,此时,所述项目文件中重复图片的类型是单一的。例如,项目文件1中包含重复图片A1、A2与A3,项目文件2中包含重复图片A1、A1与A3,项目文件3中包含重复图片A1。随机选取图片A1为待删除图片,则需要打开项目文件1、2与3,待删除图片的数量为4个;随机选取图片A2为待删除图片,则需要打开项目文件1,待删除图片的数量为1个;随机选取图片A3为待删除图片,则需要打开项目文件1、2,待删除图片的数量为2个。调用预先训练好的删除时间计算模型处理可知,以图片A1作为基准图片,选取图片A2与A3作为目标待删除图片时,对应的删除时间最短。示例性地,当所述目标聚类簇的数量为多个时,此时,所述项目文件中重复图片的类型为若干个。例如,项目文件1中包含重复图片A1、A2与A3以及重复图片B1、B2与B3,项目文件2中包含重复图片A1、A1与A3以及重复图片B1、B1与B3,项目文件3中包含重复图片A1以及重复图片B1。在一实施例中,所述方法还包括:获取所述目标聚类簇的数量;创建对应所述目标聚类簇的数量的删除进程;调用所述删除进程执行重复图片删除操作。本实施例通过创建多个删除进程的方式执行重复图片删除操作,能够提高重复图片删除的效率。在其他实施例中,也可以调用预先训练好的删除时间计算模型综合处理多个类型的重复图片,确定删除多个类型的重复图片的最优删除策略。
所述图片删除模块204可以用于根据所述最优删除策略将所述目标位置信息处的所述待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。
在本申请的至少一实施例中,根据所述最优删除策略将所述目标位置信息处的所述待删除图片替换为所述基准图片,此时,同一所述项目文件中的所述基准图片的数量可以为1个,也可以为多个。当同一所述项目文件中的所述基准图片的数量为多个时,删除重复的所述基准图片,以彻底删除程序中项目文件中的重复图片。
可选地,由于所述基准图片与所述待删除图片相比,主要在于图片名称不同,可通过图片名称替换的方式进行图片替换,能够提高重复图片的删除效率。
所述将所述目标位置信息处的所述待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片包括:
获取所述基准图片的第一文件名;
获取所述待删除图片的第二文件名;
根据所述第一文件名替换所述目标位置信息处的所述第二文件名以将所述待删除图片替换为所述基准图片;
删除同一所述项目文件中重复的所述基准图片。
其中,在根据所述基准图片替换所述目标位置信息处的所述待删除图片之后,所述项目文件中的重复图片的文件名均一致,此时,可对相同文件名的多个重复图片采用仅保留一张图片,删除其余相同图片的方式,删除项目文件中的重复图片。
在本申请的至少一实施例中,可选地,所述图片删除模块204还包括:
根据所述最优删除策略生成删除请求;
获取与所述目标服务器连接的附属服务器,并将所述删除请求分配至所述附属服务器中。
所述删除请求是指用于删除所述目标位置信息处的待删除图片的请求,所述删除请求是指预定数据格式的请求,通过将所述最优删除策略转换为所述预定数据格式的请求,能够得到删除请求。所述最优删除策略对应生成的删除请求的数量可以为1个,也可以为多个。
本申请提供一种目标服务器集群,所述目标服务器集群包括目标服务器以及与所述目标服务器连接的附属服务器。所述目标服务器是指生成所述删除请求的服务器,所述附属服务器是指与所述目标服务器关联的服务器。所述目标服务器集群是指包含一个目标服务器以及多个附属服务器的集群,所述附属服务器的数量可以为1个,也可以为多个,在此不作限制。本申请通过调用与所述目标服务器连接的附属服务器执行所述删除请求,能够避免删除请求过多时所述目标服务器超负载运行,提高了重复图片的删除效率。
在本申请的至少一实施例中,所述附属服务器的数量可以根据所述删除请求的删除数量确定,所述删除数量越大,其对应的所述附属服务器的数量也越大。可选地,获取目标服务器对应的附属服务器还包括:
获取所述删除请求的删除数量;
确定所述删除数量对应的删除数量级;
根据所述删除数量级确定附属服务器的数量。
其中,所述删除数量与所述删除数量级间存在预先设置的第一映射关系,所述删除数量级与所述附属服务器的数量间存在预先设置的第二映射关系,通过所述删除数量遍历所述第一映射关系,能够确定对应所述删除数量的删除数量级,所述删除数量级可以为低级、中级与高级。通过所述删除数量级遍历所述第二映射关系,能够确定对应所述删除数量级的附属服务器的数量,避免调用过多或过少的附属服务器造成的资源浪费或重复图片删除时间长的问题。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的重复图片删除方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的重复图片删除方法的全部或者部分步骤;或者实现重复图片删除装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (9)
1.一种重复图片删除方法,应用于目标服务器中,其特征在于,所述重复图片删除方法包括:
扫描若干个项目文件中的所有图片,得到图片集;
解析所述图片集,得到每张图片的图片特征,并根据所述图片特征进行聚类处理,得到目标聚类簇;
获取所述目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息,所述根据所述位置信息确定最优删除策略包括:
随机选取所述目标聚类簇中的图片作为待删除图片,并确定所述待删除图片的位置信息为初始位置信息;
获取所述待删除图片的数量以及删除所述初始位置信息处的图片需打开项目文件的次数;
调用预先训练好的删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间;
选取所述删除时间最短的待删除图片作为目标待删除图片;
解析所述目标待删除图片的属性信息,得到目标位置信息;
确定所述项目文件中除所述目标待删除图片之外的图片为基准图片;
根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略;
根据所述最优删除策略将所述目标位置信息处的所述目标待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。
2.根据权利要求1所述的重复图片删除方法,其特征在于,所述扫描若干个项目文件中的所有图片,得到图片集包括:
接收应用服务器发出的图片扫描指令;
根据所述图片扫描指令开启预设Shell命令解释器;
调用所述预设Shell命令解释器扫描若干个项目文件中的所有图片,得到图片集。
3.根据权利要求1所述的重复图片删除方法,其特征在于,所述根据所述图片特征进行聚类处理,得到目标聚类簇包括:
获取关于所述图片特征的特征说明文档;
基于预设的TF-IDF算法处理所述特征说明文档,计算每一项图片特征的词频与逆向文件频率;
将所述词频与所述逆向文件频率输入至预设权重计算模型中,得到所述图片特征的预设权重值;
选取所述预设权重值大于预定权重阈值的图片特征作为目标图片特征,并以所述目标图片特征为聚类基准进行聚类处理,得到目标聚类簇。
4.根据权利要求1所述的重复图片删除方法,其特征在于,所述获取所述目标聚类簇中每张图片的位置信息包括:
获取所述目标聚类簇中每张图片的属性信息;
解析所述属性信息,并检测所述属性信息中是否包含预设标记;
当检测结果为所述属性信息中包含所述预设标记时,确定所述预设标记处的信息为每张图片的位置信息。
5.根据权利要求1所述的重复图片删除方法,其特征在于,所述方法还包括:
根据所述最优删除策略生成删除请求;
获取与所述目标服务器连接的附属服务器,并将所述删除请求分配至所述附属服务器中。
6.根据权利要求1所述的重复图片删除方法,其特征在于,所述将所述目标位置信息处的所述待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片包括:
获取所述基准图片的第一文件名;
获取所述待删除图片的第二文件名;
根据所述第一文件名替换所述目标位置信息处的所述第二文件名以将所述待删除图片替换为所述基准图片;
删除同一所述项目文件中重复的所述基准图片。
7.一种重复图片删除装置,其特征在于,所述重复图片删除装置包括:
文件扫描模块,用于扫描若干个项目文件中的所有图片,得到图片集;
聚类处理模块,用于解析所述图片集,得到每张图片的图片特征,并根据所述图片特征进行聚类处理,得到目标聚类簇;
策略确定模块,用于获取所述目标聚类簇中每张图片的位置信息,并根据所述位置信息确定最优删除策略,所述最优删除策略包括基准图片、目标待删除图片以及所述目标待删除图片的目标位置信息,所述根据所述位置信息确定最优删除策略包括:
随机选取所述目标聚类簇中的图片作为待删除图片,并确定所述待删除图片的位置信息为初始位置信息;
获取所述待删除图片的数量以及删除所述初始位置信息处的图片需打开项目文件的次数;
调用预先训练好的删除时间计算模型处理所述待删除图片的数量以及打开项目文件的次数,得到删除时间;
选取所述删除时间最短的待删除图片作为目标待删除图片;
解析所述目标待删除图片的属性信息,得到目标位置信息;
确定所述项目文件中除所述目标待删除图片之外的图片为基准图片;
根据所述基准图片、所述目标待删除图片以及所述目标位置信息生成最优删除策略;
图片删除模块,用于根据所述最优删除策略将所述目标位置信息处的所述目标待删除图片替换为所述基准图片,并删除同一所述项目文件中重复的所述基准图片。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述重复图片删除方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述重复图片删除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482261.1A CN113110804B (zh) | 2021-04-30 | 2021-04-30 | 重复图片删除方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482261.1A CN113110804B (zh) | 2021-04-30 | 2021-04-30 | 重复图片删除方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113110804A CN113110804A (zh) | 2021-07-13 |
CN113110804B true CN113110804B (zh) | 2023-03-21 |
Family
ID=76720705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110482261.1A Active CN113110804B (zh) | 2021-04-30 | 2021-04-30 | 重复图片删除方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113110804B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115904166A (zh) * | 2022-11-10 | 2023-04-04 | 贝壳找房(北京)科技有限公司 | 项目图标管理方法、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633023A (zh) * | 2017-08-25 | 2018-01-26 | 北京奇艺世纪科技有限公司 | 一种图像去重方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549702B (zh) * | 2018-04-17 | 2020-11-06 | 厦门美图之家科技有限公司 | 一种移动终端的图片库的清理方法及移动终端 |
CN109614511A (zh) * | 2018-11-26 | 2019-04-12 | 平安科技(深圳)有限公司 | 一种废弃图片的删除方法及装置、电子设备 |
-
2021
- 2021-04-30 CN CN202110482261.1A patent/CN113110804B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633023A (zh) * | 2017-08-25 | 2018-01-26 | 北京奇艺世纪科技有限公司 | 一种图像去重方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113110804A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018522343A (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
CN112446544A (zh) | 交通流预测模型训练方法、装置、电子设备及存储介质 | |
WO2021189855A1 (zh) | 基于ct序列的图像识别方法、装置、电子设备及介质 | |
WO2021189827A1 (zh) | 识别模糊图像的方法、装置、设备及计算机可读存储介质 | |
WO2023029507A1 (zh) | 基于数据分析的服务分发方法、装置、设备及存储介质 | |
CN111783982A (zh) | 攻击样本的获取方法、装置、设备及介质 | |
CN113268403B (zh) | 时间序列的分析预测方法、装置、设备及存储介质 | |
WO2022160442A1 (zh) | 答案生成方法、装置、电子设备及可读存储介质 | |
CN113327136A (zh) | 归因分析方法、装置、电子设备及存储介质 | |
CN111696663A (zh) | 疾病风险的分析方法、装置、电子设备及计算机存储介质 | |
CN114237829B (zh) | 一种电力设备的数据采集与处理方法 | |
CN112699142A (zh) | 冷热数据处理方法、装置、电子设备及存储介质 | |
CN113110804B (zh) | 重复图片删除方法、装置、设备及存储介质 | |
WO2022227192A1 (zh) | 图像分类方法、装置、电子设备及介质 | |
CN112199417B (zh) | 基于人工智能的数据处理方法、装置、终端及存储介质 | |
CN112017763B (zh) | 医疗影像数据传输方法、装置、设备及介质 | |
CN113157739A (zh) | 跨模态检索方法、装置、电子设备及存储介质 | |
CN112597752A (zh) | 投诉文本的处理方法、装置、电子设备及存储介质 | |
CN111651452A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN114691782B (zh) | 数据库表增量同步方法、装置及存储介质 | |
CN114490590A (zh) | 数据仓库质量评价方法、装置、电子设备及存储介质 | |
CN111309821B (zh) | 基于图数据库的任务调度方法、装置及电子设备 | |
CN112434650A (zh) | 一种多光谱图像建筑物变化检测方法及系统 | |
CN111444159A (zh) | 精算数据处理方法、装置、电子设备及存储介质 | |
CN114547182A (zh) | 人员信息同步方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |