CN114283299A - 图像聚类方法、装置、计算机设备及存储介质 - Google Patents

图像聚类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114283299A
CN114283299A CN202110907973.3A CN202110907973A CN114283299A CN 114283299 A CN114283299 A CN 114283299A CN 202110907973 A CN202110907973 A CN 202110907973A CN 114283299 A CN114283299 A CN 114283299A
Authority
CN
China
Prior art keywords
image
clustering
parameter
images
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110907973.3A
Other languages
English (en)
Inventor
严江鹏
姚建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110907973.3A priority Critical patent/CN114283299A/zh
Publication of CN114283299A publication Critical patent/CN114283299A/zh
Priority to PCT/CN2022/099660 priority patent/WO2023016087A1/zh
Priority to EP22855072.9A priority patent/EP4293631A1/en
Priority to JP2023552569A priority patent/JP2024508867A/ja
Priority to US18/135,880 priority patent/US20230298314A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7625Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种图像聚类方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:基于M个图像组,确定第一聚类参数;对于M个图像组中的任一目标图像组,将目标图像组划分成两个图像组得到M+1个参考图像组,将基于M+1个参考图像组确定的参考聚类参数确定为目标图像组的第二聚类参数,第二聚类参数表示M+1个参考图像组中的图像的聚类程度;在M个图像组的第二聚类参数中最大的第二聚类参数不小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。本申请实现了对M个图像组继续进行细分,有利于进一步区分易混淆的图像,从而提高图像聚类的聚类程度。

Description

图像聚类方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种图像聚类方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的不断发展,对图像进行处理的需求越来越多。而图像聚类是一种常用的图像处理方式,图像聚类是指将多个图像划分成若干个不同的类别。相关技术中,预先确定目标数量的类别,然后采用聚类算法将多个图像划分到该目标数量的类别中。但是,目前的聚类算法进行图像聚类的聚类程度不够高。
发明内容
本申请实施例提供了一种图像聚类方法、装置、计算机设备及存储介质,能够提高图像聚类的聚类程度。所述技术方案如下:
一方面,提供了一种图像聚类方法,所述方法包括:
基于M个图像组,确定第一聚类参数,所述第一聚类参数表示所述M个图像组中的图像的聚类程度,所述M为大于1的整数;
对于所述M个图像组中的任一目标图像组,将所述目标图像组划分成两个图像组得到M+1个参考图像组,将基于所述M+1个参考图像组确定的参考聚类参数确定为所述目标图像组的第二聚类参数,所述第二聚类参数表示所述M+1个参考图像组中的图像的聚类程度;
在所述M个图像组的第二聚类参数中最大的第二聚类参数不小于所述第一聚类参数的情况下,将所述最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
另一方面,提供了一种图像聚类装置,所述装置包括:
第一参数确定模块,用于基于M个图像组,确定第一聚类参数,所述第一聚类参数表示所述M个图像组中的图像的聚类程度,所述M为大于1的整数;
第二参数确定模块,用于对于所述M个图像组中的任一目标图像组,将所述目标图像组划分成两个图像组得到M+1个参考图像组,将基于所述M+1个参考图像组确定的参考聚类参数确定为所述目标图像组的第二聚类参数,所述第二聚类参数表示所述M+1个参考图像组中的图像的聚类程度;
图像组划分模块,用于在所述M个图像组的第二聚类参数中最大的第二聚类参数不小于所述第一聚类参数的情况下,将所述最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
可选地,所述第二参数确定模块,还用于对于所述M+1个图像组中的任一目标图像组,继续将所述目标图像组划分成两个图像组以得到M+2个参考图像组,将基于所述M+2个参考图像组确定的参考聚类参数确定为所述目标图像组的第三聚类参数,所述第三聚类参数表示所述M+2个参考图像组的聚类程度;
所述图像组划分模块,还用于在所述M+1个第二图像组的第三聚类参数中最大的第三聚类参数不小于所述最大的第二聚类参数的情况下,将最大的第三聚类参数对应的目标图像组划分成两个图像组,得到M+2个图像组,直至本轮划分后得到的多个聚类参数中最大的聚类参数小于划分前的聚类参数。
可选地,所述装置还包括:
图像获取模块,用于获取对目标对象进行拍摄得到的多个图像;
分类处理模块,用于调用图像分类模型,分别对所述多个图像进行分类处理,得到每个图像的类别标签;
图像划分模块,用于基于所述每个图像的类别标签,将相同类别的图像划分到同一个图像组中,得到所述M个图像组。
可选地,所述图像分类模型包括第一特征提取网络和图像分类网络,所述分类处理模块,包括:
第一特征提取单元,用于对于所述多个图像中的每个图像,调用所述第一特征提取网络,对所述图像进行特征提取,得到第一图像特征;
分类处理单元,用于调用所述图像分类网络,对所述第一图像特征进行分类处理,得到所述图像的类别标签。
可选地,所述第一参数确定模块,包括:
第一参数确定单元,用于对于所述M个图像组中的每个图像,基于所述图像的第一图像特征、所述图像所属的图像组中的其他图像的第一图像特征以及其他图像组中的图像的第一图像特征,确定所述图像对应的凝聚参数和分离参数,所述凝聚参数表示所述图像与所述图像所属的图像组中的其他图像之间的不相似程度,所述分离参数表示所述图像与所述其他图像组中的图像之间的不相似程度;
第二参数确定单元,用于基于所述凝聚参数和所述分离参数,确定所述图像对应的聚类子参数,所述聚类子参数与所述凝聚参数负相关,所述聚类子参数与所述分离参数正相关。
第三参数确定单元,用于基于每个图像对应的聚类子参数,确定所述第一聚类参数。
可选地,所述图像为病理切片图像,所述第一特征提取网络包括K个特征提取层和特征转换层,所述第一特征提取单元,用于:
调用所述K个特征提取层,对所述图像依次进行特征提取,得到每个特征提取层输出的图像特征;
调用所述特征转换层,对最后L个特征提取层输出的图像特征进行特征转换,得到所述第一图像特征,所述L为大于1且不大于所述K的整数。
可选地,所述装置还包括:
样本图像获取模块,用于获取样本图像;
扰动处理模块,用于对所述样本图像分别采用不同的方式进行扰动处理,得到多个扰动图像;
所述分类处理模块,还用于调用图像分类模型,分别对每个扰动图像进行分类处理,得到每个扰动图像的类别标签;
模型训练模块,用于基于每个扰动图像的所述类别标签,训练所述图像分类模型。
可选地,所述样本图像的数量为多个,所述扰动图像的类别标签包括所述扰动图像属于每个类别的概率,所述模型训练模块,包括:
第一差异参数确定单元,用于获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第一差异参数;
第二差异参数确定单元,用于获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第二差异参数;
第一模型训练单元,用于基于所述第一差异参数与所述第二差异参数,训练所述图像分类模型,以使调用训练后的图像分类模型所得到的第一差异参数减小,且第二差异参数增大。
可选地,所述图像分类模型包括第一特征提取网络和图像分类网络,所述分类处理模块,包括:
第一特征提取单元,用于对于每个扰动图像,调用所述第一特征提取网络,对所述扰动图像进行特征提取,得到第二图像特征;
分类处理单元,用于调用所述图像分类网络,对所述第二图像特征进行分类处理,得到所述扰动图像的类别标签。
可选地,所述图像分类模型还包括第二特征提取网络,所述分类处理模块,还包括:
第二特征提取单元,用于调用所述第二特征提取网络,对所述第二图像特征进行特征提取,得到第三图像特征;
所述模型训练模块,包括:
第二模型训练单元,用于基于每个扰动图像的所述类别标签和所述第三图像特征,训练所述图像分类模型。
可选地,所述样本图像的数量为多个,所述第二模型训练单元,用于:
获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第三差异参数;
获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第四差异参数;
基于所述第三差异参数与所述第四差异参数,训练所述图像分类模型,以使调用训练后的图像分类模型所得到的第三差异参数减小,且第四差异参数增大。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的图像聚类方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的图像聚类方法中所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的图像聚类方法中所执行的操作。
本申请实施例提供的方法、装置、计算机设备及存储介质,分别确定将M个图像组中的每个图像组划分成两个新的图像组后的第二聚类参数,如果最大的第二聚类参数不小于划分前的第一聚类参数,则说明将该第二聚类参数对应的图像组划分成两个新的图像组,能够提高图像组中的图像的聚类程度,因此将该图像组划分成两个新的图像组,得到M+1个图像组,实现了对M个图像组继续进行细分,有利于进一步区分易混淆的图像,从而提高图像聚类的聚类程度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图。
图2是本申请实施例提供的一种图像聚类方法的流程图。
图3是本申请实施例提供的一种图像分类模型的示意图。
图4是本申请实施例提供的另一种图像分类模型的示意图。
图5是本申请实施例提供的一种图像聚类方法的流程图。
图6是本申请实施例提供的一种第一特征提取网络的示意图。
图7是本申请实施例提供的一种确定聚类参数的流程图。
图8是本申请实施例提供的一种模型训练方法的流程图。
图9是本申请实施例提供的一种训练图像分类模型的示意图。
图10是本申请实施例提供的另一种图像聚类方法的流程图。
图11是本申请实施例提供的一种图像聚类装置的结构示意图。
图12是本申请实施例提供的另一种图像聚类装置的结构示意图。
图13是本申请实施例提供的一种终端的结构示意图。
图14是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一聚类参数称为第二聚类参数,且类似地,可将第二聚类参数称为第一聚类参数。
其中,至少一个是指一个或者一个以上,例如,至少一个图像可以是一个图像、两个图像、三个图像等任一大于等于一的整数个图像。多个是指两个或者两个以上,例如,多个图像可以是两个图像、三个图像等任一大于等于二的整数个图像。每个是指至少一个中的每一个,例如,每个图像是指多个图像中的每一个图像,若多个图像为3个图像,则每个图像是指3个图像中的每一个图像。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
以下将基于人工智能技术和计算机视觉技术,对本申请实施例提供的图像聚类方法进行说明。
本申请实施例提供的图像聚类方法,能够用于计算机设备中。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
在一种可能实现方式中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。
在一种可能实现方式中,本申请实施例中的计算机设备是区块链系统中的节点,该节点能够将聚类得到的多个图像组存储在区块链中,之后该节点或者该区块链中的其他设备对应的节点可从区块链中获取该多个图像组。
图1是本申请实施例提供的一种实施环境的示意图。该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或有线网络连接。
在一种可能实现方式中,终端101将多个图像发送给服务器102,服务器102采用本申请实施例提供的方法,对多个图像进行图像聚类,最终得到多个图像组,然后服务器102将该多个图像组返回给终端101。
在另一种可能实现方式中,终端101上安装由服务器102提供服务的目标应用,终端101能够通过目标应用实现例如图像处理或者图像传输等功能。例如,目标应用为图像处理应用,该图像处理应用能够对多个图像进行图像聚类。其中,服务器101训练图像分类模型,服务器101将训练好的图像分类模型存储于目标应用中,终端101基于目标应用,调用图像分类模型对多个图像进行分类处理,得到多个图像组,然后采用本申请实施例提供的方法,继续对该多个图像组进行聚类,得到图像的聚类程度更高的多个图像组。
图2是本申请实施例提供的一种图像聚类方法的流程图。本申请实施例的执行主体为计算机设备,可选地,该计算机设备为上述图1的实施例中的终端或者服务器。参见图2,该方法包括:
201、计算机设备基于M个图像组,确定第一聚类参数。
计算机设备获取M个图像组,M为大于1的整数,每个图像组包括至少一个图像。其中,属于同一个图像组的图像之间的相似度较高,属于不同图像组的图像之间的相似度较低,每个图像组可以看作一个聚类簇。
计算机设备基于该M个图像组,确定第一聚类参数,该第一聚类参数表示M个图像组中的图像的聚类程度。本申请实施例中,第一聚类参数越大,则图像之间的聚类程度越高,第一聚类参数越小,则图像之间的聚类程度越低。聚类程度反映同一图像组中的图像之间的凝聚程度,以及不同图像组中的图像之间的分离程度。其中,同一图像组中的图像之间的凝聚程度越高,且不同图像组中的图像之间的分离程度越高,则该M个图像组中的图像之间的聚类程度就越高。
202、对于M个图像组中的任一目标图像组,计算机设备将目标图像组划分成两个图像组得到M+1个参考图像组,将基于M+1个参考图像组确定的参考聚类参数确定为目标图像组的第二聚类参数。
M个图像组中的每个图像组均可作为目标图像组,对于M个图像组中的任一目标图像组,计算机设备将目标图像组划分成两个图像组,将这两个图像组与M个图像组中除了目标图像组之外的M-1个图像组,作为参考图像组,则能够得到M+1个参考图像组。计算机设备基于该M+1个参考图像组,确定参考聚类参数,将该参考聚类参数确定为该目标图像组的第二聚类参数,该第二聚类参数表示M+1个参考图像组中的图像的聚类程度。
其中,计算机设备对M个图像组中的每一个图像组均执行该步骤202中的操作,则能够得到M个图像组中每一个图像组的第二聚类参数,也即是得到M个第二聚类参数。
203、计算机设备在M个图像组的第二聚类参数中最大的第二聚类参数不小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
由于第二聚类参数表示M+1个参考图像组中的图像的聚类程度,则第二聚类参数越大,M+1个参考图像组中的图像的聚类程度越高。计算机设备在获取到的M个图像组的第二聚类参数中确定最大的第二聚类参数,则将该最大的第二聚类参数对应的目标图像组划分成两个图像组之后,得到的M+1个参考图像组的图像的聚类程度最高,也即是,如果需要将M+1个图像组中的某一个图像组划分成两个图像组,将最大的第二聚类参数对应的目标图像组划分成两个图像组能够使图像的聚类程度最高,该划分方式是最好的划分方式。
计算机设备将最大的第二聚类参数与第一聚类参数进行比较,在最大的第二聚类参数不小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组之后,图像的聚类程度不低于原始的M个图像组的图像的聚类程度,因此计算机设备将最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。在另一实施例中,在最大的第二聚类参数小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组之后,图像的聚类程度低于原始的M个图像组的图像的聚类程度,则计算机设备不再对M个图像组中的图像组进行划分。
本申请实施例提供的方法,分别确定将M个图像组中的每个图像组划分成两个新的图像组后的第二聚类参数,如果最大的第二聚类参数不小于划分前的第一聚类参数,则说明将该第二聚类参数对应的图像组划分成两个新的图像组,能够提高图像组中的图像的聚类程度,因此将该图像组划分成两个新的图像组,得到M+1个图像组,实现了对M个图像组继续进行细分,有利于进一步区分易混淆的图像,从而提高图像聚类的聚类程度。
在一些实施例中,M个图像组是根据图像分类模型对多个图像的分类结果所划分出来的,图像分类模型用于对图像进行分类处理,得到图像的类别标签。图3是本申请实施例提供的一种图像分类模型的示意图,如图3所示,图像分类模型30包括第一特征提取网络301和图像分类网络302,第一特征提取网络301与图像分类网络302连接,第一特征提取网络301用于对图像进行特征提取,图像分类网络302用于对图像特征进行分类处理。
在一种可能实现方式中,如图4所示,图像分类模型30还包括第二特征提取网络303,第二特征提取网络303与第一特征提取网络301连接,第二特征提取网络303用于对图像特征继续进行特征提取。
图5是本申请实施例提供的一种图像聚类方法的流程图。本申请实施例的执行主体为计算机设备,可选地,该计算机设备为上述图1的实施例中的终端或者服务器。参见图5,该方法包括:
501、计算机设备获取对目标对象进行拍摄得到的多个图像。
计算机设备获取多个图像,该多个图像是对同一目标对象进行拍摄所得到的图像。例如,目标对象为人体,该多个图像是对同一人体的不同器官进行拍摄所得到的;或者,目标对象为器官,该多个图像是对同一器官的不同部位进行拍摄所得到的;或者目标对象为场景,该多个图像是对同一场景在不同时间点进行拍摄所得到的。可选地,在医疗领域中,该多个图像为数字病理全景图像(Whole Slide Images,WSIs),数字病理全景图像是通过数字病理扫描仪将病理显微切片进行扫描所得到的图像,数字病理扫描仪是由光学系统、线性扫描相机等组成的。
502、计算机设备调用图像分类模型,分别对多个图像进行分类处理,得到每个图像的类别标签。
计算机设备中存储有图像分类模型,该图像分类模型用于对图像进行分类处理,可选地,该图像分类模型是由卷积神经网络模型(Convolutional Neural Network,CNN),该图像分类模型的网络结构详见上述图3的实施例,该图像分类模型的训练过程详见下述图8的实施例,在此暂不作说明。计算机设备获取到多个图像后,调用该图像分类模型,分别对多个图像中的每个图像进行分类处理,得到每个图像的类别标签,图像的类别标签能够表示图像所属的类别。其中,该类别标签是图像分类模型所预测出来的伪标签,而不是图像的真实的类别标签。
在一种可能实现方式中,如图3所示,图像分类模型包括第一特征提取网络和图像分类网络,第一特征提取网络和图像分类网络连接。计算机设备对于多个图像中的每个图像,调用第一特征提取网络,对图像进行特征提取,得到第一图像特征,调用图像分类网络,对第一图像特征进行分类处理,得到图像的类别标签。
其中,第一特征提取网络的输入为图像,图像分类网络的输入为第一特征提取网络的输出。可选地,图像分类网络是由两个全连接层组成的神经网络。第一特征提取网络输出的第一图像特征用于表示图像的特征,例如第一图像特征为多维的特征向量矩阵,或者第一图像特征为用于表示特征的图像等。
在另一种可能实现方式中,图像为病理切片图像,第一特征提取网络包括K个特征提取层和特征转换层,特征提取层用于提取图像特征,特征转换层用于对图像特征进行转换。计算机设备调用K个特征提取层,对图像依次进行特征提取,得到每个特征提取层输出的图像特征,调用特征转换层,对最后L个特征提取层输出的图像特征进行特征转换,得到第一图像特征,L为大于1且不大于K的整数。该第一特征提取网络中,K个特征提取层依次连接,特征转换层分别与最后L个特征提取层连接。
其中,按照从前往后的排列顺序,K个特征提取层依次提取从浅层到深层的图像特征,考虑到病理切片图像的分类更依赖于图像中细胞核的形态信息以及分布情况的纹理信息,而这些信息需要从浅层网络提取的图像特征中获取到,因此在进行特征转换时,不是只对最后一个特征提取层输出的图像特征进行特征转换,而是对最后L个特征提取层输出的图像特征进行特征转换,使得最后得到的第一图像特征不仅包括最后一个特征提取层输出的深层的图像特征,还包括最后一个特征提取层之前的特征提取层输出的相对浅层的图像特征,从而提高第一特征提取网络对病理切片图像的特征提取能力。
可选地,第一特征提取网络中的特征提取层为卷积层,特征转换层为全连接层,最后L个特征提取层与特征转换层之间还连接有池化层,池化层用于对特征提取层提取出来的图像特征进行池化处理。如图6所示,第一特征提取网络包括卷积层601-卷积层604和全连接层605,最后3个卷积602-卷积层604与全连接层605之间还分别连接有池化层,计算机设备将病理切片图像输入至第一特征提取网络的卷积层601中,卷积层601输出的图像特征输入至卷积层602中,卷积层602输出的图像特征分别输入至卷积层603和池化层612中,卷积层603输出的图像特征分别输入至卷积层604和池化层613中,卷积层604输出的图像特征输入至池化层614中。其中,池化层612、池化层613和池化层614输出的图像特征输入至全连接层605中,全连接层605对三个池化层输出的图像特征进行特征转换,得到第一图像特征。
可选地,第一特征提取网络中的卷积层由残差神经网络、GoogleNet(一种神经网络)或者VGGnet(Visual Geometry Group Network,视觉几何群网络)等网络结构组成。
503、计算机设备基于每个图像的类别标签,将相同类别的图像划分到同一个图像组中,得到M个图像组。
计算机设备获取到每个图像的类别标签后,能够基于每个图像的类别标签,确定每个图像所属的类别。计算机设备将相同类别的图像划分到同一个图像组中,得到M个图像组,M为大于1的整数。每个图像组包括至少一个图像,属于同一个图像组的图像属于相同类别,这些图像之间的相似度较高,属于不同图像组的图像属于不同类别,这些图像之间的相似度较低。在上述步骤501-503中,相当于将获取到的多个图像进行图像聚类,得到多个图像组,每个图像组为一个聚类簇。
可选地,图像的类别标签包括图像属于每个类别的概率,对于每个图像,将该图像的类别标签中最大概率对应的类别,确定为该图像所属的类别。
需要说明的是,在上述步骤501-503中,计算机设备通过图像分类模型先确定每个图像的所属的类别,然后再根据每个图像所属的类别,将多个图像划分成M个图像组,但是由于图像分类模型所能确定的类别个数是固定,例如图像分类模型所输出的类别标签中包括K个类别的概率,则M一定不大于K,相当于限制了将多个图像进行聚类所得到的多个图像组的数量,因此会存在同一图像组内的图像之间的凝聚程度不够高的情况,导致M个图像组中的图像的聚类程度不够高。因此,计算机设备继续执行下述步骤504-508,来对M个图像组进行进一步的划分。
504、计算机设备基于M个图像组,确定第一聚类参数。
计算机设备基于该M个图像组,确定第一聚类参数,该第一聚类参数表示M个图像组中的图像的聚类程度。本申请实施例中,第一聚类参数越大,则图像之间的聚类程度越高,第一聚类参数越小,则图像之间的聚类程度越低。聚类程度反映同一图像组中的图像之间的凝聚程度,以及不同图像组中的图像之间的分离程度。其中,同一图像组中的图像之间的凝聚程度越高,且不同图像组中的图像之间的分离程度越高,则该M个图像组中的图像之间的聚类程度就越高。
在一种可能实现方式中,计算机设备基于每个M个图像组中的图像的第一图像特征,确定第一聚类参数,如图7所示,包括以下步骤:
701、对于M个图像组中的每个图像,计算机设备基于该图像的第一图像特征、该图像所属的图像组中的其他图像的第一图像特征以及其他图像组中的图像的第一图像特征,确定该图像对应的凝聚参数和分离参数。其中,凝聚参数表示图像与图像所属的图像组中的其他图像之间的不相似程度,分离参数表示图像与其他图像组中的图像之间的不相似程度。
计算机设备基于该图像的第一图像特征,以及该图像所属的图像组中的其他图像的第一图像特征,确定该图像对应的凝聚参数。计算机设备基于该图像的第一图像特征,以及除了该图像所属的图像组之外的其他图像组中的图像的第一图像特征,确定该图像对应的分离参数。
可选地,对于每个其他图像组,计算机设备基于该图像的第一图像特征,以及该其他图像中的图像的第一图像特征,确定该图像与该其他图像组之间的候选分离参数,从而确定出该图像与每个其他图像组之间的候选分离参数,将最小的候选分离参数确定为该图像对应的分离参数。
可选地,计算机设备基于该图像的第一图像特征以及图像所属的图像组中的其他图像的第一图像特征,确定该图像与每个其他图像之间的距离,然后将该图像与多个其他图像之间的距离的均值,确定为该图像对应的凝聚参数。该图像与其他图像之间的距离越小,该图像与同一图像组中的其他图像之间的相似度越高,该图像对应的凝聚参数越小。因此图像对应的凝聚参数越小,图像与图像所属的图像组中的其他图像之间的不相似程度越低,则图像的聚类程度越高。
可选地,计算机设备基于该图像的第一图像特征以及其他图像组中的每个图像的第一图像特征,确定该图像与其他图像组中的每个图像之间的距离,然后将该图像与其他图像组中的多个图像之间的距离的均值,确定为该图像对应的分离参数。该图像与其他图像组中的图像之间的距离越大,该图像与其他图像组中的图像之间的相似度越低,该图像对应的分离参数越大。因此图像对应的分离参数越大,图像与其他图像组中的图像之间的不相似程度越高,则图像的聚类程度越高。其中,图像之间的距离可以为余弦距离或者欧氏距离等,本申请实施例对此不做限定。
702、计算机设备基于凝聚参数和分离参数,确定该图像对应的聚类子参数。其中,聚类子参数与凝聚参数负相关,聚类子参数与分离参数正相关。
凝聚参数越大,图像对应的聚类子参数越小,凝聚参数越小,图像对应的聚类子参数越大;分离参数越大,图像对应的聚类子参数越大,分离参数越小,图像对应的聚类子参数越小。图像对应的聚类子参数越大,该图像的聚类程度越高。
可选地,计算机设备采用以下公式,确定图像对应的聚类子参数:
Figure BDA0003202528810000141
其中,i表示图像,SC(i)表示该图像对应的聚类子参数,a(i)表示该图像对应的凝聚参数,b(i)表示该图像对应的分离参数。
703、计算机设备基于每个图像对应的聚类子参数,确定第一聚类参数。
计算机设备确定每个图像对应的聚类子参数,基于每个图像对应的聚类子参数,确定第一聚类参数。可选地,计算机设备将多个图像对应的聚类子参数的均值,确定为第一聚类参数。
可选地,第一聚类参数越接近1,表示同一图像组中的多个图像之间的间距越小,不同图像组中的多个图像之间的间距越大,则M个图像组中的图像的聚类程度越高。第一聚类参数越接近-1,表示同一图像组中的多个图像之间的间距越大,不同图像组中的多个图像之间的间距越小,则M个图像组中的图像的聚类程度越小。
505、对于M个图像组中的任一目标图像组,计算机设备将目标图像组划分成两个图像组得到M+1个参考图像组,将基于M+1个参考图像组确定的参考聚类参数确定为目标图像组的第二聚类参数。
M个图像组中的每个图像组均可作为目标图像组,对于M个图像组中的任一目标图像组,计算机设备将目标图像组划分成两个图像组,将基于M+1个参考图像组确定的参考聚类参数确定为目标图像组的第二聚类参数,该第二聚类参数表示M+1个参考图像组中的图像的聚类程度。其中,计算机设备对M个图像组中的每一个图像组均执行该步骤202中的操作,则能够得到M个图像组中每一个图像组的第二聚类参数,也即是得到M个第二聚类参数。
例如,M为3,M个图像组为图像组1、图像组2和图像组3。计算机设备将图像组1划分成图像组11和图像组12,基于图像组11、图像组12、图像组2和图像组3,确定第二聚类参数a。计算机设备将图像组2划分成图像组21和图像组22,基于图像组1、图像组21、图像组22和图像组3,确定第二聚类参数b。计算机设备将图像组3划分成图像组31和图像组32,基于图像组1、图像组2、图像组31和图像组32,确定第二聚类参数c,从而得到3个第二聚类参数,即图像组1的第二聚类参数a、图像组2的第二聚类参数b和图像组3的第二聚类参数c。
可选地,计算机设备采用谱聚类算法、k-means算法(一种无监督的聚类算法)或者基于GMM(Gaussian Mixed Model,高斯混合模型)的最大期望聚类算法等任一聚类算法,来将目标图像组划分成两个新的图像组。
506、计算机设备在M个图像组的第二聚类参数中最大的第二聚类参数不小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
由于第二聚类参数表示M+1个参考图像组中的图像的聚类程度,则第二聚类参数越大,M+1个参考图像组中的图像的聚类程度越高。计算机设备在获取到的M个图像组的第二聚类参数中确定最大的第二聚类参数,则将该最大的第二聚类参数对应的目标图像组划分成两个图像组之后,得到的M+1个参考图像组的图像的聚类程度最高。计算机设备将最大的第二聚类参数与第一聚类参数进行比较,在最大的第二聚类参数不小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组之后,图像的聚类程度不低于原始的M个图像组的图像的聚类程度,因此计算机设备将最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
在另一实施例中,在最大的第二聚类参数小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组之后,图像的聚类程度低于原始的M个图像组的图像的聚类程度,则计算机设备不再对M个图像组中的图像组进行划分,且无需执行下述步骤507-508。
507、对于M+1个图像组中的任一目标图像组,计算机设备继续将目标图像组划分成两个图像组以得到M+2个参考图像组,将基于M+2个参考图像组确定的参考聚类参数确定为目标图像组的第三聚类参数。
计算机设备得到M+1个图像组之后,对于该M+1个图像组中的任一目标图像组,继续将目标图像组划分成两个图像组以得到M+2个参考图像组,将基于M+2个参考图像组确定的参考聚类参数确定为目标图像组的第三聚类参数,该第三聚类参数表示M+2个参考图像组的聚类程度。其中,计算机设备对M+1个图像组中的每一个图像组均执行该步骤507中的操作,则能够得到M+1个图像组中每一个图像组的第三聚类参数,也即是得到M+1个第三聚类参数。
该步骤507中确定第三聚类参数的过程,与上述步骤505中确定第二聚类参数的过程同理,在此不再一一赘述。
508、计算机设备在M+1个第二图像组的第三聚类参数中最大的第三聚类参数不小于最大的第二聚类参数的情况下,将最大的第三聚类参数对应的目标图像组划分成两个图像组,得到M+2个图像组,直至本轮划分后得到的多个聚类参数中最大的聚类参数小于划分前的聚类参数。
计算机设备在步骤508中得到M+2个图像组的过程,与上述步骤506中得到M+1个图像组的过程同理,在此不再一一赘述。
其中,计算机设备得到M+2个图像组之后,继续对M+2个图像组中的任一目标图像组进行划分,并重新确定聚类参数,然后根据聚类参数的大小来确定是否将M+2个图像组继续划分为M+3个图像组。也即是,计算机设备执行多次迭代过程,上述步骤505-506以及步骤507-508均为一次迭代过程。在本轮迭代过程中,如果本轮划分后得到的多个聚类参数中,最大的聚类参数小于划分前的聚类参数,则说明对当前的任意一个图像组进行划分后得到的聚类参数均小于划分前的聚类参数,也即是对当前的任意一个图像组进行划分后的聚类程度,都低于划分前的聚类程度,因此计算机设备停止迭代过程,完成对M个图像组的进一步划分。
例如,初始的M个图像组为C={ci},ci∈[0,1,…,M-1],在每轮迭代过程中,将划分前的多个图像组定义为Cprev,将划分后的多个图像组定义为Ccur,将划分后的多个图像组的数量定义为K,将Cprev对应的聚类参数定义为SCprev,将Ccur对应的聚类参数定义为SCcur。将参数初始化为:Cprev=Ccur=C,K=M,执行如下的迭代过程,直至满足迭代终止条件则停止迭代:
(1)对当前的M个图像组,分别确定将每个图像组划分成两个图像组后得到的
Figure BDA0003202528810000171
i∈[1,2,…,M],在M个
Figure BDA0003202528810000172
中确定最大值,将最大值记为
Figure BDA0003202528810000173
将图像组
Figure BDA0003202528810000174
划分成两个图像组,将得到的M+1个图像组记为新的Ccur={ci},ci∈[0,1,…,M]。
(2)如果
Figure BDA0003202528810000175
说明将图像组
Figure BDA0003202528810000176
划分成两个图像组,能够提高图像的聚类程度。则计算机设备将图像组
Figure BDA0003202528810000177
划分成两个图像组,更新Cprev=Ccur,K=M+1,进行下一轮迭代过程。如果
Figure BDA0003202528810000178
则退出迭代过程,将最终获得的Ccur={ci},ci∈[0,1,…,M]作为图像聚类的结果。
在本申请实施例中包括两个过程,一个是基于图像分类模型进行图像聚类,对于没有类别标签的多个图像,使用端到端的图像分类模型进行处理,得到每个图像的类别标签,从而进行初步的图像聚类;另一个是基于聚类参数进行图像聚类,以聚类参数为依据,将当前的多个图像组进行进一步的划分,区分出分布更紧致的图像组,直至划分后的聚类参数小于划分前的聚类参数,则终止对图像组继续进行划分,得到最终的聚类结果。
本申请实施例提供的方法,分别确定将M个图像组中的每个图像组划分成两个新的图像组后的第二聚类参数,如果最大的第二聚类参数不小于划分前的第一聚类参数,则说明将该第二聚类参数对应的图像组划分成两个新的图像组,能够提高图像组中的图像的聚类程度,因此将该图像组划分成两个新的图像组,得到M+1个图像组,实现了对M个图像组继续进行细分,有利于进一步区分易混淆的图像,从而提高图像聚类的聚类程度。
并且,先调用图像分类模型确定多个图像的类别标签,基于类别标签先将多个图像划分为M个图像组,实现对多个图像进行初步的图像聚类,然后基于聚类参数将M个图像组继续进行细分,实现对多个图像进行更精准的图像聚类,采用两种方式相结合的方法,既能够提高图像聚类的效率,又能够提高图像聚类的聚类程度。
并且,对最后L个特征提取层输出的图像特征进行特征转换,使得最后得到的第一图像特征不仅包括最后一个特征提取层输出的深层的图像特征,还包括最后一个特征提取层之前的特征提取层输出的相对浅层的图像特征,从而提高第一特征提取网络对病理切片图像的特征提取能力。
图8是本申请实施例提供的一种模型训练方法的流程图,本申请实施例所训练的图像分类模型,可应用于上述图5所示的实施例中。其中,该方法的执行主体为计算机设备,可选地,该计算机设备为上述图1的实施例中的终端或者服务器。参见图8,该方法包括以下步骤:
801、计算机设备获取样本图像。
样本图像可以为任意类型的图像,可以为采用任意方式所获取的样本图像。例如,计算机设备获取不同人体的不同器官的多个病理切片图像,将每个病理切片图像切分成尺寸相同的多个图像块,将切换得到的多个图像块作为样本图像。
其中,本申请实施例中的样本图像是没有真实的类别标签的图像,本申请实施例的训练方法是基于无标签的样本图像进行无监督学习的训练方法。
802、计算机设备对样本图像分别采用不同的方式进行扰动处理,得到多个扰动图像。
计算机设备采用扰动处理的方式,对样本图像的随机性进行增强。计算机设备对样本图像分别采用不同的方式进行扰动处理,得到多个不同的扰动图像。
其中,不同的扰动处理方式包括不同的扰动类型,扰动类型包括颜色抖动、高斯模糊、旋转、裁剪部分区域后放大至原尺寸等。每次扰动处理可以仅包括一种扰动类型,也可以包括多种扰动类型。可选地,每次对样本图像进行扰动处理时对多个扰动类型进行遍历,对于当前遍历的扰动类型,计算机设备按照该扰动类型的发生概率来确定本次是否选取该扰动类型,如果是,则按照该扰动类型进行扰动处理,并继续遍历下一个扰动类型,如果不是,则无需按照该扰动类型进行扰动处理,直接遍历下一个扰动类型,直至遍历最后一个扰动类型,从而按照多种扰动类型相结合的方式对样本图像执行一次扰动处理,得到一个扰动图像。然后计算机设备按照上述步骤,继续对样本图像执行另一次扰动处理,得到另一个扰动图像。可选地,每种扰动类型的发生概率可以设置为0.5,以便增强扰动图像的随机性。
以对2个样本图像分别进行2次扰动处理为例,计算机设备按照每种扰动方式的发生概率,选取多种扰动类型,按照本次选取的多种扰动类型,分别对2个样本图像进行扰动处理,得到2个扰动图像。然后计算机设备再次按照每种扰动方式的发生概率,选取多种扰动类型,按照本次选取的多种扰动类型,分别对2个样本图像进行扰动处理,再次得到2个扰动图像。则计算机设备最终得到4个扰动图像。
803、计算机设备调用图像分类模型,分别对每个扰动图像进行分类处理,得到每个扰动图像的类别标签。
在一种可能实现方式中,图像分类模型包括第一特征提取网络和图像分类网络。计算机设备对于每个扰动图像,调用第一特征提取网络,对扰动图像进行特征提取,得到第二图像特征,调用图像分类网络,对第二图像特征进行分类处理,得到扰动图像的类别标签。其中,该类别标签是图像分类模型所预测出来的伪标签,而不是扰动图像的真实的类别标签。
在另一种可能实现方式中,如图4所示,图像分类模型还包括第二特征提取网络。计算机设备得到第二图像特征后,还会调用第二特征提取网络,对第二图像特征进行特征提取,得到第三图像特征。
其中,第二特征提取网络与第一特征提取网络连接,该第一特征提取网络与第二特征提取网络均用于提取图像特征,不同之处在于,第一特征提取网络提取的是图像的特征,第二特征提取网络提取的是图像特征的特征,相比于第一特征提取网络提取出来的第一图像特征,第二特征提取网络提取出来的第二图像特征是更深层次的特征。本申请实施例中的第三图像特征用于训练图像分类模型,利用第三图像特征训练图像分类模型的过程详见下述步骤804,在此暂不作说明。
其中,该步骤803中获取第二图像特征和扰动图像的类别标签的过程,与上述步骤502中获取第一图像特征和图像的类别标签的过程同理,在此不再一一赘述。
804、计算机设备基于每个扰动图像的类别标签,训练图像分类模型。
计算机设备得到每个扰动图像的类别标签后,基于每个扰动图像的类别标签,训练图像分类模型,以提高图像分类模型的分类能力。训练完成的图像分类模型,对于给定的任一图像,对该图像进行分类处理能够得到该图像的类别标签。可选地,类别标签包括该图像属于每个类别的概率,则类别标签中最大概率所对应的类别,即为该图像所属的类别。
在一种可能实现方式中,样本图像的数量为多个,扰动图像的类别标签包括扰动图像属于每个类别的概率。计算机设备获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第一差异参数,获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第二差异参数,基于第一差异参数与第二差异参数,训练图像分类模型,以使调用训练后的图像分类模型所得到的第一差异参数减小,且第二差异参数增大。
对于对同一样本图像进行扰动处理所得到的多个扰动图像来说,该多个扰动图像来源于同一个样本图像,该多个扰动图像所属的类别与该样本图像所属的类别是相同的,因此该多个图像所属的类别也是相同的。扰动图像的类别标签是图像分类模型所预测的,如果图像分类模型的准确率足够高,则对于每一个类别,该多个扰动图像属于该类别的概率应该足够接近。因此,计算机设备确定该多个扰动图像属于同一类别的概率之间的第一差异参数,该第一差异参数越小,则多个扰动图像属于同一类别的概率越接近,则图像分类模型越准确,因此计算机设备基于该第一差异参数,训练图像分类模型,以使第一差异参数减小,从而提高图像分类模型的分类能力。
对于对不同样本图像进行扰动处理所得到的多个扰动图像来说,该多个扰动图像来源于不同的样本图像,该多个扰动图像所属的类别分别与不同的样本图像所属的类别是相同的,因此该多个图像所属的类别是不同的。扰动图像的类别标签是图像分类模型所预测的,如果图像分类模型的准确率足够高,则对于每一个类别,该多个扰动图像属于该类别的概率的差异应该足够大。因此,计算机设备确定该多个扰动图像属于同一类别的概率之间的第二差异参数,该第二差异参数越大,该多个扰动图像属于同一类别的概率之间的差异越大,则图像分类模型越准确,因此计算机设备基于该第二差异参数,训练图像分类模型,以使第二差异参数增大,从而提高图像分类模型的分类能力。
在另一种可能实现方式中,图像分类模型还包括第二特征提取网络,在上述步骤803中,计算机设备获取到第二图像特征后,还调用第二特征提取网络,对第二图像特征进行特征提取,得到第三图像特征。则计算机设备基于每个扰动图像的类别标签和第三图像特征,训练图像分类模型。
可选地,样本图像的数量为多个,则基于每个扰动图像的第三图像特征,训练图像分类模型的过程,包括:计算机设备获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第三差异参数,获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第四差异参数,基于第三差异参数与第四差异参数,训练图像分类模型,以使调用训练后的图像分类模型所得到的第三差异参数减小,且第四差异参数增大。
对于对同一样本图像进行扰动处理所得到的多个扰动图像来说,该多个扰动图像来源于同一个样本图像,该多个扰动图像的图像特征与该样本图像的图像特征是相似的,因此该多个图像的图像特征也是相似的。如果图像分类模型的准确率足够高,则图像分类模型所提取出来的每个扰动图像的图像特征应该足够接近。因此,计算机设备确定该多个扰动图像的第三图像特征之间的第三差异参数,该第三差异参数越小,则多个扰动图像的第三图像特征越接近,则图像分类模型越准确,因此计算机设备基于该第三差异参数,训练图像分类模型,以使第三差异参数减小,从而提高图像分类模型的分类能力。
对于对不同样本图像进行扰动处理所得到的多个扰动图像来说,该多个扰动图像来源于不同的样本图像,该多个扰动图像的图像特征分别与不同的样本图像的图像特征是相似的,因此该多个图像的图像特征是不相似的。如果图像分类模型的准确率足够高,则图像分类模型所提取出来的每个扰动图像的图像特征的差异应该足够大。因此,计算机设备确定该多个扰动图像的第三图像特征之间的第四差异参数,该第四差异参数越大,该多个扰动图像的第三图像特征之间的差异越大,则图像分类模型越准确,因此计算机设备基于该第四差异参数,训练图像分类模型,以使第四差异参数增大,从而提高图像分类模型的分类能力。
可选地,计算机设备基于第一差异参数和第二差异参数确定第一损失值,基于第三差异参数和第四差异参数确定第二损失值,对第一损失值和第二损失值进行加权求和得到目标损失值。计算机设备基于目标损失值,训练图像分类模型,以使调用训练后的图像分类模型所得到的目标损失值减小。
其中,第一损失值与第一差异参数正相关,第一损失值与第二差异参数负相关,也即是第一差异参数越大,该第一损失值越大,第一差异参数越小,该第一损失值越小,第二差异参数越大,该第一损失值越小,第二差异参数越小,该第一损失值越大。第二损失值与第三差异参数正相关,第三损失值与第四差异参数负相关,也即是第三差异参数越大,该第二损失值越大,第三差异参数越小,该第二损失值越小,第四差异参数越大,该第二损失值越小,第四差异参数越小,该第二损失值越大。可选地,第一损失值和第二损失值对应的权重系数均为0.5。
本申请实施例中,通过将来源于同一样本图像的扰动图像进行对比学习,以及来源于不同样本图像的扰动图像进行对比学习,来提高图像分类模型的特征提取能力以及对不同类别的图像的分辨能力。采用对比学习的方式,实现了对图像分类模型进行无监督训练,无需人工对样本图像进行标注,有利于节约人力和时间,且能够避免人工标注所导致的错误标签,因此提高了图像分类模型的训练效率以及准确率。
在一种可能实现方式中,由于本申请实施例训练图像分类模型的过程为无监督训练,训练过程中没有真实的样本类别标签,图像分类模型仅能够确定图像属于每个类别的概率,但是无法确定每个类别的真实含义。可选地,计算机设备无需确定每个类别的真实含义,后续只需利用图像分类模型将多个图像划分成不同的类别即可。可选地,计算机设备利用图像分类模型将多个图像划分成不同的类别后,基于划分结果,人工确定每个类别的真实含义。例如在医疗领域中,图像分类模型能够将病理切片图像划分成7个类别,每个类别代表一种生理组织类型,由医生根据划分结果来确定每个类别代表哪种生理组织类型。
需要说明的是,上述步骤801-804仅以一次迭代过程为例进行说明,在训练图像处理模型的过程中,需要进行多次迭代训练。在一种可能实现方式中,计算机设备响应于迭代轮次达到第一阈值,停止对该图像分类模型进行训练;或者,响应于当前迭代轮次得到的损失值不大于第二阈值,停止对图像分类模型进行训练。其中,第一阈值和第二阈值均为任意的数值,例如,第一阈值为10或15等,第二阈值为0.01或0.02等。
本申请实施例中,训练图像分类模型包括以下内容:
(1)所需准备的数据:无标签的样本图像集、模型训练的迭代总轮次E、每一次迭代所处理的样本图像的个数N、随机性增强策略、损失值的权重系数τI和τC、类别的数量M以及图像分类模型,图像分类模型包括第一特征提取网络fω、第二特征提取网络
Figure BDA0003202528810000221
和图像分类网络
Figure BDA0003202528810000222
其中ω,
Figure BDA0003202528810000223
分别为网络参数。迭代总轮次E和样本图像的个数N均为整数,例如E大于100,N大于128。
(2)网络结构:第一特征提取网络fω是一个神经网络,输入为224*224*3维的样本图像,输出为512*1维的图像特征。第二特征提取网络
Figure BDA0003202528810000231
和图像分类网络
Figure BDA0003202528810000232
则将图像特征进一步投影到不同的空间,以分别进行特征的对比学习优化和类别的对比学习优化。其中第二特征提取网络
Figure BDA0003202528810000233
输入为512*1维的图像特征,输出为128*1维的图像特征,图像分类网络
Figure BDA0003202528810000234
输入为512*1维的图像特征,输出为M*1维的类别标签。第二特征提取网络
Figure BDA0003202528810000235
是由两层全连接层组成的神经网络,输入为512*1维,中间层为512*1维,输出为128*1维。图像分类网络
Figure BDA0003202528810000236
是由两层全连接层组成的神经网络,输入为512*1维,中间层为512*1维,输出为M*1维。
(3)训练过程:图9是本申请实施例提供的一种训练图像分类模型的示意图,如图9所示,在一次迭代训练的过程中,从样本图像集中获取样本图像a和样本图像b,分别采用不同的方式对样本图像a和样本图像b进行扰动处理后,得到扰动图像a’、扰动图像b’、扰动图像a”和扰动图像b”。调用第一特征提取网络901,分别对每个扰动图像进行特征提取,得到每个扰动图像的512维的图像特征,调用第二特征提取网络902对512维的图像特征进行特征提取,得到128维的图像特征,调用图像分类网络903对512维的图像特征进行分类处理,得到M维的类别标签。计算机设备基于第二特征提取网络902输出的图像特征进行特征维度的对比学习优化,基于图像分类网络903输出的类别标签进行类别维度的对比学习优化。
本申请实施例提供的方法,通过将来源于同一样本图像的扰动图像进行对比学习,以及来源于不同样本图像的扰动图像进行对比学习,来提高图像分类模型的特征提取能力以及对不同类别的图像的分辨能力。采用对比学习的方式,实现了对图像分类模型进行无监督训练,无需人工对样本图像进行标注,有利于节约人力和时间,且能够避免人工标注所导致的错误标签,因此提高了图像分类模型的训练效率以及准确率。
上述实施例可应用于需要进行图像聚类的任意场景中,来对任意类型的图像进行图像聚类。例如,在医疗领域中,按照生理组织的类型将患者的多个病理切片图像进行图像聚类。图10是本申请实施例提供的一种图像聚类方法的流程图,参见图10,该方法包括:
1001、通过数字病理扫描仪将患者的病理显微切片扫描成数字图像,得到病理切片图像。
1002、将病理切片图像切分成多个病理切片图像块,构建无标签的数据集。
1003、调用图像分类模型,对每个病理切片图像块进行分类处理,得到每个图像块的图像特征和类别标签,基于类别标签将多个病理切片图像块划分成M个图像。
1004、得到M个图像组后,基于聚类参数,继续对M个图像组进行细分,最终划分成N个图像组。
本申请实施例能够对无标签的病理切片图像块进行图像聚类,将多个病理切片图像块划分成多个图像组,每个图像组代表一种生理组织,从而为后续的病理分析任务提供支撑。例如,病理分析任务包括:通过生理组织的数量占比进行异常预测或者预后处理;通过将某一组织图像组与正常组织的图像组进行对比来判断该组织是否异常等,每个图像组对应一种生理组织。
除了按照生理组织的类型对病理切片图像进行图像聚类之外,还可以按照其他标准对病理切片图像进行图像聚类。例如,按照质量类别对病理切片图像进行图像聚类,例如质量类别包括染色不均、切片厚、震刀或者切片皱折等。或者按照细胞类别对病理切片图像进行图像聚类,例如细胞类别包括可疑细胞和正常细胞等。
图11是本申请实施例提供的一种图像聚类装置的结构示意图。参见图11,该装置包括:
第一参数确定模块1101,用于基于M个图像组,确定第一聚类参数,第一聚类参数表示M个图像组中的图像的聚类程度,M为大于1的整数;
第二参数确定模块1102,用于对于M个图像组中的任一目标图像组,将目标图像组划分成两个图像组得到M+1个参考图像组,将基于M+1个参考图像组确定的参考聚类参数确定为目标图像组的第二聚类参数,第二聚类参数表示M+1个参考图像组中的图像的聚类程度;
图像组划分模块1103,用于在M个图像组的第二聚类参数中最大的第二聚类参数不小于第一聚类参数的情况下,将最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
本申请实施例提供的图像聚类装置,分别确定将M个图像组中的每个图像组划分成两个新的图像组后的第二聚类参数,如果最大的第二聚类参数不小于划分前的第一聚类参数,则说明将该第二聚类参数对应的图像组划分成两个新的图像组,能够提高图像组中的图像的聚类程度,因此将该图像组划分成两个新的图像组,得到M+1个图像组,实现了对M个图像组继续进行细分,有利于进一步区分易混淆的图像,从而提高图像聚类的聚类程度。
可选地,参见图12,第二参数确定模块1102,还用于对于M+1个图像组中的任一目标图像组,继续将目标图像组划分成两个图像组以得到M+2个参考图像组,将基于M+2个参考图像组确定的参考聚类参数确定为目标图像组的第三聚类参数,第三聚类参数表示M+2个参考图像组的聚类程度;
图像组划分模块1103,还用于在M+1个第二图像组的第三聚类参数中最大的第三聚类参数不小于最大的第二聚类参数的情况下,将最大的第三聚类参数对应的目标图像组划分成两个图像组,得到M+2个图像组,直至本轮划分后得到的多个聚类参数中最大的聚类参数小于划分前的聚类参数。
可选地,参见图12,装置还包括:
图像获取模块1104,用于获取对目标对象进行拍摄得到的多个图像;
分类处理模块1105,用于调用图像分类模型,分别对多个图像进行分类处理,得到每个图像的类别标签;
图像划分模块1106,用于基于每个图像的类别标签,将相同类别的图像划分到同一个图像组中,得到M个图像组。
可选地,参见图12,图像分类模型包括第一特征提取网络和图像分类网络,分类处理模块1105,包括:
第一特征提取单元1115,用于对于多个图像中的每个图像,调用第一特征提取网络,对图像进行特征提取,得到第一图像特征;
分类处理单元1125,用于调用图像分类网络,对第一图像特征进行分类处理,得到图像的类别标签。
可选地,参见图12,第一参数确定模块1101,包括:
第一参数确定单元1111,用于对于M个图像组中的每个图像,基于图像的第一图像特征、图像所属的图像组中的其他图像的第一图像特征以及其他图像组中的图像的第一图像特征,确定图像对应的凝聚参数和分离参数,凝聚参数表示图像与图像所属的图像组中的其他图像之间的不相似程度,分离参数表示图像与其他图像组中的图像之间的不相似程度;
第二参数确定单元1121,用于基于凝聚参数和分离参数,确定图像对应的聚类子参数,聚类子参数与凝聚参数负相关,聚类子参数与分离参数正相关。
第三参数确定单元1131,用于基于每个图像对应的聚类子参数,确定第一聚类参数。
可选地,参见图12,图像为病理切片图像,第一特征提取网络包括K个特征提取层和特征转换层,第一特征提取单元1115,用于:
调用K个特征提取层,对图像依次进行特征提取,得到每个特征提取层输出的图像特征;
调用特征转换层,对最后L个特征提取层输出的图像特征进行特征转换,得到第一图像特征,L为大于1且不大于K的整数。
可选地,参见图12,装置还包括:
样本图像获取模块1107,用于获取样本图像;
扰动处理模块1108,用于对样本图像分别采用不同的方式进行扰动处理,得到多个扰动图像;
分类处理模块1105,还用于调用图像分类模型,分别对每个扰动图像进行分类处理,得到每个扰动图像的类别标签;
模型训练模块1109,用于基于每个扰动图像的类别标签,训练图像分类模型。
可选地,参见图12,样本图像的数量为多个,扰动图像的类别标签包括扰动图像属于每个类别的概率,模型训练模块1109,包括:
第一差异参数确定单元1119,用于获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第一差异参数;
第二差异参数确定单元1129,用于获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第二差异参数;
第一模型训练单元1139,用于基于第一差异参数与第二差异参数,训练图像分类模型,以使调用训练后的图像分类模型所得到的第一差异参数减小,且第二差异参数增大。
可选地,参见图12,图像分类模型包括第一特征提取网络和图像分类网络,分类处理模块1105,包括:
第一特征提取单元1115,用于对于每个扰动图像,调用第一特征提取网络,对扰动图像进行特征提取,得到第二图像特征;
分类处理单元1125,用于调用图像分类网络,对第二图像特征进行分类处理,得到扰动图像的类别标签。
可选地,参见图12,图像分类模型还包括第二特征提取网络,分类处理模块1105,还包括:
第二特征提取单元1135,用于调用第二特征提取网络,对第二图像特征进行特征提取,得到第三图像特征;
模型训练模块1109,包括:
第二模型训练单元1149,用于基于每个扰动图像的类别标签和第三图像特征,训练图像分类模型。
可选地,参见图12,样本图像的数量为多个,第二模型训练单元1149,用于:
获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第三差异参数;
获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第四差异参数;
基于第三差异参数与第四差异参数,训练图像分类模型,以使调用训练后的图像分类模型所得到的第三差异参数减小,且第四差异参数增大。
需要说明的是:上述实施例提供的图像聚类装置在进行图像聚类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像聚类装置与图像聚类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的图像聚类方法中所执行的操作。
可选地,该计算机设备提供为终端。图13示出了本申请一个示例性实施例提供的终端1300的结构示意图。
终端1300包括有:处理器1301和存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以集成有GPU(Graphics Processing Unit,图像处理的交互器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一条计算机程序,该至少一条计算机程序用于被处理器1301所具有以实现本申请中方法实施例提供的图像聚类方法。
在一些实施例中,终端1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。可选地,外围设备包括:射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。
外围设备接口1303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时,显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1305可以为一个,设置在终端1300的前面板;在另一些实施例中,显示屏1305可以为至少两个,分别设置在终端1300的不同表面或呈折叠设计;在另一些实施例中,显示屏1305可以是柔性显示屏,设置在终端1300的弯曲表面上或折叠面上。甚至,显示屏1305还可以设置成非矩形的不规则图形,也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端1300的前面板,后置摄像头设置在终端1300的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1307还可以包括耳机插孔。
定位组件1308用于定位终端1300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1308可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于:加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。
加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号,控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1312可以检测终端1300的机体方向及转动角度,陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时,可以检测用户对终端1300的握持信号,由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时,由处理器1301根据用户对显示屏1305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1314用于采集用户的指纹,由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份,或者,由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1301授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时,指纹传感器1314可以与物理按键或厂商标志集成在一起。
光学传感器1315用于采集环境光强度。在一个实施例中,处理器1301可以根据光学传感器1315采集的环境光强度,控制显示屏1305的显示亮度。可选地,当环境光强度较高时,调高显示屏1305的显示亮度;当环境光强度较低时,调低显示屏1305的显示亮度。在另一个实施例中,处理器1301还可以根据光学传感器1315采集的环境光强度,动态调整摄像头组件1306的拍摄参数。
接近传感器1316,也称距离传感器,设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中,当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时,由处理器1301控制显示屏1305从亮屏状态切换为息屏状态;当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时,由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,该计算机设备提供为服务器。图14是本申请实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1401和一个或一个以上的存储器1402,其中,所述存储器1402中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的图像聚类方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机程序代码,计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机程序代码,处理器执行计算机程序代码,使得计算机设备实现如上述实施例的图像聚类方法中所执行的操作。在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种图像聚类方法,其特征在于,所述方法包括:
基于M个图像组,确定第一聚类参数,所述第一聚类参数表示所述M个图像组中的图像的聚类程度,所述M为大于1的整数;
对于所述M个图像组中的任一目标图像组,将所述目标图像组划分成两个图像组得到M+1个参考图像组,将基于所述M+1个参考图像组确定的参考聚类参数确定为所述目标图像组的第二聚类参数,所述第二聚类参数表示所述M+1个参考图像组中的图像的聚类程度;
在所述M个图像组的第二聚类参数中最大的第二聚类参数不小于所述第一聚类参数的情况下,将所述最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
2.根据权利要求1所述的方法,其特征在于,所述将所述最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组之后,所述方法还包括:
对于所述M+1个图像组中的任一目标图像组,继续将所述目标图像组划分成两个图像组以得到M+2个参考图像组,将基于所述M+2个参考图像组确定的参考聚类参数确定为所述目标图像组的第三聚类参数,所述第三聚类参数表示所述M+2个参考图像组的聚类程度;
在所述M+1个第二图像组的第三聚类参数中最大的第三聚类参数不小于所述最大的第二聚类参数的情况下,将最大的第三聚类参数对应的目标图像组划分成两个图像组,得到M+2个图像组,直至本轮划分后得到的多个聚类参数中最大的聚类参数小于划分前的聚类参数。
3.根据权利要求1所述的方法,其特征在于,所述基于M个图像组,确定第一聚类参数之前,所述方法还包括:
获取对目标对象进行拍摄得到的多个图像;
调用图像分类模型,分别对所述多个图像进行分类处理,得到每个图像的类别标签;
基于所述每个图像的类别标签,将相同类别的图像划分到同一个图像组中,得到所述M个图像组。
4.根据权利要求3所述的方法,其特征在于,所述图像分类模型包括第一特征提取网络和图像分类网络,所述调用图像分类模型,分别对所述多个图像进行分类处理,得到每个图像的类别标签,包括:
对于所述多个图像中的每个图像,调用所述第一特征提取网络,对所述图像进行特征提取,得到第一图像特征;
调用所述图像分类网络,对所述第一图像特征进行分类处理,得到所述图像的类别标签。
5.根据权利要求4所述的方法,其特征在于,所述基于M个图像组,确定第一聚类参数,包括:
对于所述M个图像组中的每个图像,基于所述图像的第一图像特征、所述图像所属的图像组中的其他图像的第一图像特征以及其他图像组中的图像的第一图像特征,确定所述图像对应的凝聚参数和分离参数,所述凝聚参数表示所述图像与所述图像所属的图像组中的其他图像之间的不相似程度,所述分离参数表示所述图像与所述其他图像组中的图像之间的不相似程度;
基于所述凝聚参数和所述分离参数,确定所述图像对应的聚类子参数,所述聚类子参数与所述凝聚参数负相关,所述聚类子参数与所述分离参数正相关;
基于每个图像对应的聚类子参数,确定所述第一聚类参数。
6.根据权利要求4所述的方法,其特征在于,所述图像为病理切片图像,所述第一特征提取网络包括K个特征提取层和特征转换层,所述调用所述第一特征提取网络,对所述图像进行特征提取,得到第一图像特征,包括:
调用所述K个特征提取层,对所述图像依次进行特征提取,得到每个特征提取层输出的图像特征;
调用所述特征转换层,对最后L个特征提取层输出的图像特征进行特征转换,得到所述第一图像特征,所述L为大于1且不大于所述K的整数。
7.根据权利要求3所述的方法,其特征在于,所述图像分类模型的训练过程包括:
获取样本图像;
对所述样本图像分别采用不同的方式进行扰动处理,得到多个扰动图像;
调用图像分类模型,分别对每个扰动图像进行分类处理,得到每个扰动图像的类别标签;
基于每个扰动图像的所述类别标签,训练所述图像分类模型。
8.根据权利要求7所述的方法,其特征在于,所述样本图像的数量为多个,所述扰动图像的类别标签包括所述扰动图像属于每个类别的概率,所述基于每个扰动图像的所述类别标签,训练所述图像分类模型,包括:
获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第一差异参数;
获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像属于同一类别的概率之间的第二差异参数;
基于所述第一差异参数与所述第二差异参数,训练所述图像分类模型,以使调用训练后的图像分类模型所得到的第一差异参数减小,且第二差异参数增大。
9.根据权利要求7所述的方法,其特征在于,所述图像分类模型包括第一特征提取网络和图像分类网络,所述调用图像分类模型,分别对每个扰动图像进行分类处理,得到每个扰动图像的类别标签,包括:
对于每个扰动图像,调用所述第一特征提取网络,对所述扰动图像进行特征提取,得到第二图像特征;
调用所述图像分类网络,对所述第二图像特征进行分类处理,得到所述扰动图像的类别标签。
10.根据权利要求9所述的方法,其特征在于,所述图像分类模型还包括第二特征提取网络,所述方法还包括:
调用所述第二特征提取网络,对所述第二图像特征进行特征提取,得到第三图像特征;
所述基于每个扰动图像的类别标签,训练所述图像分类模型,包括:
基于每个扰动图像的所述类别标签和所述第三图像特征,训练所述图像分类模型。
11.根据权利要求10所述的方法,其特征在于,所述样本图像的数量为多个,基于每个扰动图像的所述第三图像特征,训练所述图像分类模型的过程,包括:
获取对同一样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第三差异参数;
获取对不同样本图像进行扰动处理所得到的多个扰动图像,确定获取到的多个扰动图像的第三图像特征之间的第四差异参数;
基于所述第三差异参数与所述第四差异参数,训练所述图像分类模型,以使调用训练后的图像分类模型所得到的第三差异参数减小,且第四差异参数增大。
12.一种图像聚类装置,其特征在于,所述装置包括:
第一参数确定模块,用于基于M个图像组,确定第一聚类参数,所述第一聚类参数表示所述M个图像组中的图像的聚类程度,所述M为大于1的整数;
第二参数确定模块,用于对于所述M个图像组中的任一目标图像组,将所述目标图像组划分成两个图像组得到M+1个参考图像组,将基于所述M+1个参考图像组确定的参考聚类参数确定为所述目标图像组的第二聚类参数,所述第二聚类参数表示所述M+1个参考图像组中的图像的聚类程度;
图像组划分模块,用于在所述M个图像组的第二聚类参数中最大的第二聚类参数不小于所述第一聚类参数的情况下,将所述最大的第二聚类参数对应的目标图像组划分成两个图像组,得到M+1个图像组。
13.根据权利要求12所述的装置,其特征在于,所述第二参数确定模块,还用于对于所述M+1个图像组中的任一目标图像组,继续将所述目标图像组划分成两个图像组以得到M+2个参考图像组,将基于所述M+2个参考图像组确定的参考聚类参数确定为所述目标图像组的第三聚类参数,所述第三聚类参数表示所述M+2个参考图像组的聚类程度;
所述图像组划分模块,还用于在所述M+1个第二图像组的第三聚类参数中最大的第三聚类参数不小于所述最大的第二聚类参数的情况下,将最大的第三聚类参数对应的目标图像组划分成两个图像组,得到M+2个图像组,直至本轮划分后得到的多个聚类参数中最大的聚类参数小于划分前的聚类参数。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至11任一项所述的图像聚类方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至11任一项所述的图像聚类方法中所执行的操作。
CN202110907973.3A 2021-08-09 2021-08-09 图像聚类方法、装置、计算机设备及存储介质 Pending CN114283299A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110907973.3A CN114283299A (zh) 2021-08-09 2021-08-09 图像聚类方法、装置、计算机设备及存储介质
PCT/CN2022/099660 WO2023016087A1 (zh) 2021-08-09 2022-06-20 图像聚类方法、装置、计算机设备及存储介质
EP22855072.9A EP4293631A1 (en) 2021-08-09 2022-06-20 Method and apparatus for image clustering, computer device, and storage medium
JP2023552569A JP2024508867A (ja) 2021-08-09 2022-06-20 画像クラスタリング方法、装置、コンピュータ機器及びコンピュータプログラム
US18/135,880 US20230298314A1 (en) 2021-08-09 2023-04-18 Image clustering method and apparatus, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110907973.3A CN114283299A (zh) 2021-08-09 2021-08-09 图像聚类方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114283299A true CN114283299A (zh) 2022-04-05

Family

ID=80868406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110907973.3A Pending CN114283299A (zh) 2021-08-09 2021-08-09 图像聚类方法、装置、计算机设备及存储介质

Country Status (5)

Country Link
US (1) US20230298314A1 (zh)
EP (1) EP4293631A1 (zh)
JP (1) JP2024508867A (zh)
CN (1) CN114283299A (zh)
WO (1) WO2023016087A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294639A (zh) * 2022-07-11 2022-11-04 惠州市慧昊光电有限公司 色温可调灯带及其控制方法
WO2023016087A1 (zh) * 2021-08-09 2023-02-16 腾讯科技(深圳)有限公司 图像聚类方法、装置、计算机设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5479274B2 (ja) * 2010-08-30 2014-04-23 株式会社ニコンシステム 画像分類装置、画像分類プログラム、プリンタ、撮像装置及び携帯電話機
CN108268526A (zh) * 2016-12-30 2018-07-10 中国移动通信集团北京有限公司 一种数据分类方法和装置
CN107943984A (zh) * 2017-11-30 2018-04-20 广东欧珀移动通信有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质
CN109447186A (zh) * 2018-12-13 2019-03-08 深圳云天励飞技术有限公司 聚类方法及相关产品
WO2021029835A1 (en) * 2019-08-09 2021-02-18 Bilkav Eğitim Danişmanlik A.Ş. A method and system for clustering performance evaluation and increment
CN110796164A (zh) * 2019-09-20 2020-02-14 北京海益同展信息科技有限公司 数据聚类的簇数确定方法、系统、电子设备及存储介质
CN114283299A (zh) * 2021-08-09 2022-04-05 腾讯科技(深圳)有限公司 图像聚类方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023016087A1 (zh) * 2021-08-09 2023-02-16 腾讯科技(深圳)有限公司 图像聚类方法、装置、计算机设备及存储介质
CN115294639A (zh) * 2022-07-11 2022-11-04 惠州市慧昊光电有限公司 色温可调灯带及其控制方法

Also Published As

Publication number Publication date
JP2024508867A (ja) 2024-02-28
WO2023016087A1 (zh) 2023-02-16
EP4293631A1 (en) 2023-12-20
US20230298314A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
CN110136136B (zh) 场景分割方法、装置、计算机设备及存储介质
CN111325726A (zh) 模型训练方法、图像处理方法、装置、设备及存储介质
CN111091166B (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN111476783B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN112036331A (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN113610750A (zh) 对象识别方法、装置、计算机设备及存储介质
CN114283050A (zh) 图像处理方法、装置、设备及存储介质
CN110796248A (zh) 数据增强的方法、装置、设备及存储介质
CN113705302A (zh) 图像生成模型的训练方法、装置、计算机设备及存储介质
CN114283299A (zh) 图像聚类方法、装置、计算机设备及存储介质
CN110942046A (zh) 图像检索方法、装置、设备及存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN114511864B (zh) 文本信息提取方法、目标模型的获取方法、装置及设备
CN113724189A (zh) 图像处理方法、装置、设备及存储介质
CN114677350A (zh) 连接点提取方法、装置、计算机设备及存储介质
CN112528760B (zh) 图像处理方法、装置、计算机设备及介质
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN114282035A (zh) 图像检索模型的训练和检索方法、装置、设备及介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质
CN113822263A (zh) 图像标注方法、装置、计算机设备及存储介质
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN113569822B (zh) 图像分割方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070818

Country of ref document: HK