CN112069342A - 图像分类方法、装置、电子设备及存储介质 - Google Patents
图像分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112069342A CN112069342A CN202010916934.5A CN202010916934A CN112069342A CN 112069342 A CN112069342 A CN 112069342A CN 202010916934 A CN202010916934 A CN 202010916934A CN 112069342 A CN112069342 A CN 112069342A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- group
- same
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000007613 environmental effect Effects 0.000 claims abstract description 58
- 238000013145 classification model Methods 0.000 claims description 54
- 238000002372 labelling Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 abstract description 8
- 238000012549 training Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 6
- 238000005286 illumination Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种图像分类方法、装置、电子设备及存储介质,涉及图像处理技术领域。其中,该方法包括:对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组;获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称;根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。该技术方案可以更准确地确定同类图组所属的类别。
Description
技术领域
本申请涉及图像处理技术领域,更具体地,涉及一种图像分类方法、装置、电子设备及存储介质。
背景技术
当存在多个图像时,可能有些图像因为存在一定相似性而属于一个类别,因此可以对图像进行分类。通常的分类方法,容易导致无关的图像被分类到其不属于的类别中,使分类结果不准确。
发明内容
鉴于上述问题,本申请提出了一种图像分类方法、装置、电子设备及存储介质,以改善上述问题。
第一方面,本申请实施例提供了一种图像分类方法,所述方法包括:对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组;获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称;根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
第二方面,本申请实施例提供了一种图像分类装置,所述装置包括:聚类模块,用于对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组;标签获取模块,用于获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称;分类模块,用于根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行用于执行上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
本申请实施例提供的图像分类方法、装置、电子设备及存储介质,通过聚类先提取出属于同一类别的图像,作为进一步确定其类别的同类图组,从而避免不属于任何一个类别的无关的图像被分类到一个类别中。再获取同类图组的各个图像的语义标签,该语义标签为图像中的物体对应的名称,从而根据语义标签确定同类图组的类别时,可以更准确地确定同类图组所属的类别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的图像分类方法的流程图。
图2示出了本申请另一实施例提供的图像分类方法的流程图。
图3示出了本申请实施例提供的一种聚类示意图。
图4示出了本申请又一实施例提供的图像分类方法的流程图。
图5示出了本申请实施例提供的一种相册显示示意图。
图6示出了本申请实施例提供的图像分类装置的功能模块图。
图7示出了本申请实施例提供的电子设备的结构框图。
图8是本申请实施例的用于保存或者携带实现根据本申请实施例的方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在具有大量图像时,对图像进行分类更便于图像的查看。该分类为从大量图像中确定各个类别的图像并识别各个类别的图像具体所属类别。例如,在手机、平板电脑等电子设备的相册中,可能存储有大量的拍摄的照片,用户若想要查看某些特殊事件的照片,需要从杂乱的照片中进行翻找,十分不便。但是,若对存储的照片进行分类,区分各个类别的照片,将照片分类显示,则用户想要查看某个类别的照片,直接根据分类结果查看,方便快捷。如将照片按事件分类,区分并识别各个事件的照片,用户想要查看某个事件的照片时,可以直接查看分类后该事件对应的照片。
但是,大量的图像中可能有一些不属于任何类别的图像,给分类带来困难,可能将不属于任何类别的图像分类到某一个类别中,导致分类不准确。例如,对电子设备存储的照片进行分类,通常是将照片分为用户在各个不同事件中拍摄的照片,如聚餐、婚礼、旅行、生日会等,但是,在存储的照片中,可能还包括了屏幕截图等与事件完全无关的图片,这些事件完全无关的图片可能被分类到某个事件中,使分类结果不准确。
因此,本申请实施例提出了的图像分类方法、装置、电子设备及存储介质,对待分类的图像进行分类并识别每个类别的图像具体所属类别。该图像分类方法中,对待分类图像进行聚类,获得属于同一类别的图像作为同类图组,对同类图组所属类别进行识别,提高了图像分类的准确性。下面将通过具体实施例对本申请实施例提供的图像分类方法、装置、电子设备及存储介质进行详细说明。
请参阅图1,示出了本申请实施例提供的图像分类方法。该方法可以用于电子设备,该电子设备可以是手机、电脑、平板电脑、智能穿戴式设备等终端设备,也可以是服务器等云端设备。若是终端设备,终端设备可以对自身拍摄的图像进行分类,也可以获取到其他设备拍摄的图像进行分类;若是云端设备,可以获取到终端设备拍摄的图像并进行分类。本申请实施例主要以终端设备为例进行说明。具体的,该方法可以包括如下步骤。
步骤S110:对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组。
待分类的图像为需要进行分类的图像,即需要确定其中的图像具体属于哪一类别。待分类的图像可以是一个或者多个。若是一个图像,该一个图像可以作为一个同类图组进行分类。本申请实施例主要以待分类的图像包括多个图像为例进行说明,其中具体的图像数量在本申请实施例中并不限定。
对待分类图像进行聚类,从而可以获得聚类后属于同一类别的图像,将属于同一类别的图像作为同类图组,用于识别同类图组具体所属类别,从而获得具体类别在相册中所包括的图像。而不属于任何一个类别的图像,则不属于任何一个同类图组,不对其进行具体所述类别的识别,避免对分类结果的干扰。
可以理解的,若待分类图像实际包括多个类别的图像,则聚类后可以获得多个类别,每一个类别中的图像作为一个同类图组。若待分类图像实际只包括一个类别的图像,则聚类后获得一个类别,将该类别的图像作为一个同类图组。
步骤S120:获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称。
对于一个同类图组,可以获取其中各个图像的语义标签。每个图像的语义标签为该图像中一个或多个物体分别对应的名称,从而将低语义的视觉信息转换为高级语义的文本信息。
步骤S130:根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
由于图像的语义标签为图像中物体的名称,即指出了图像中存在哪些物体。对于每个具体的类别,涉及到的物体具有共性以及关联性,因此,对于每个具体的类别,一个同类图组中的所有语义标签具有与该类别相关的共性以及关联性,该共性以及关联性体现了类别的独特特征。例如,对于婚礼这一事件,属于婚礼这一类别,婚礼中的图像的语义标签,可能涉及到婚礼中的物体,如“许多人”、“白婚纱”、“新娘”、“大厅”、“美食”、“教堂”等,这些语义标签具有婚礼所具有的共性以及与婚礼相关的关联性,结合这些特征,可以确定该类别为婚礼。
另外,对于同一类别,其图像拍摄时的环境信息通常也具有共性,如在同一地理位置范围内、同一时间范围内以及气候条件相近等。因此,结合同类图组中的各个图像的语义标签以及各个图像拍摄时的环境信息,可以确定同类图组所属的类别。
在本申请实施例中,若待分类图像聚类后获得多个类别,则可以获得多个同类图组。对于每个同类图组,可以获取其中各个图像的语义标签,并且可以获取各个图像拍摄时的环境信息,根据同类图组中图像的语义标签以及环境信息,确定同类图组的类别。
在本申请实施例中,对待分类图像进行聚类,从而提取出待分类图像中属于同一类别的图像,将属于同一类别的图像作为同类图组,剔除了不属于任何类别的无关图像。再对同类图组获取各个图像的语义标签,根据同类图组中各个图像的语义标签以及各个图像拍摄时的环境信息,确定同类图组具体所属类别,基于低语义的视觉信息转换为高级语义的文本信息后的分类,提高分类的准确性。
可选的,在本申请实施例中,可以根据待分类图像的图像特征进行聚类,例如,通过图像特征提取算法提取待分类图像的图像特征,再通过聚类算法对图像特征进行聚类,属于同一类别的图像特征对应的图像,确定为同一类别的图像。
可选的,在本申请实施例中,同类图组的类别可以是事件类别,一个事件类别的图像属于一个事件中的图像。对于同一事件,图像拍摄时的环境信息具有相似性,因此,可以根据环境信息对待分类图像进行分类,相比于根据图像特征进行分类,降低了对图像特征的依赖,并且,属于同一事件的图像即使图像特征差别较大,也可以准确分类到同一类别。本申请另一实施例提供的图像分类方法,详细描述了根据环境信息对待分类图像的聚类实现分类。具体的,请参见图2,该实施例的图像分类方法包括如下步骤,其中,步骤S210至步骤S230可以实现对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组。
步骤S210:获取待分类图像拍摄时的环境信息。
待分类图像可以是通过拍摄获得的图像,如可以是电子设备的相册中的图像,或者电子设备获取到的其他设备拍摄的图像。可选的,待分类图像可以是电子设备中的所有拍摄的图像;也可以是部分拍摄的图像,如最近的预设时间范围内的图像,如最近一周拍摄的图像、最近一个月拍摄的图像等。
获取同类图组对应的类别,可以是获取同类图组所属的事件。对于同一事件的各个图像,拍摄时拍摄地的环境信息具有相似性,如拍摄图像的时间差别较小,拍摄图像的地理位置较为接近,拍摄图像时的气候条件相似,如湿度、温度、光照强度等相似,拍摄时周围的声音的声音特征相似等。从而可以通过环境信息的相似性确定属于同一类别的图像。
对应的,图像在拍摄时,可以对应图像记录拍摄时的环境信息,如拍摄时的地理位置,拍摄时的时间、周围的温度、湿度、光照强度、声音特征等中的一种或多种。其中,各种环境信息可以通过电子设备中的相应检测设备获得,如通过电子设备的定位系统获得地理位置以及时间,如通过GPS定位系统获取地理位置和时间;通过温度传感器获取温度;通过湿度传感器获取环境中的湿度;通过光照传感器获取环境的光照强度;通过麦克风获取环境中的声音以提取声音特征等。
获取待分类图像拍摄时的环境信息可以是,获取各个待分类图像分别对应的环境信息。在本申请实施例中,对于每一待分类图像,可以获取所有记录的环境信息,也可以获取部分环境信息,在本申请实施例中并不限定。各个待分类图像获取的环境信息种类相同。
步骤S220:通过聚类算法,对获取的环境信息进行聚类。
由于同一类别的图像的环境信息具有相似性,因此可以通过聚类算法对获取的环境信息进行聚类,将获取的具有相似性的环境信息聚类为一个类别。可选的,由于一个事件通常不止拍摄一张图像,且多张图像进行分类时更加准确,在本申请实施例中,每个类别中环境信息的数量可以大于预设数量,预设数量的具体值在本申请实施例中并不限定。
在一种实施方式中,通过聚类算法,对获取的环境信息进行聚类可以是,获取彼此之间差别较小的环境信息作为统一类别的环境信息。具体的,环境信息之间的差别,可以将每个图像的环境信息转换为坐标系中的点,通过点之间的距离进行衡量,小于预设距离的点作为同一类别中的点。具体可以根据环境信息的种类建立坐标系,本申请实施例环境信息包括地理位置以及时间为例进行说明,如图3所示,以时间为横坐标,地理位置为纵坐标,根据每个环境信息的时间以及地理位置,将每个环境信息作为坐标系中的一个点。遍历待分类图像对应的所有的点,且不重复遍历。对于每一个遍历到的点,如果其预设距离范围内有大于预设数量的点,则标记遍历到的这个点为核心点,核心点的预设范围内定义为核心点的领域,在核心点预设范围内的点为该核心点的领域内的点。对于每一个点,如果是核心点,则将该核心点以及该核心点领域内的点加入一个聚类簇,在同一个聚类簇中的点如果是核心点,将该核心点领域内的点仍然加入该聚类簇,直到聚类簇中的所有核心点的领域内的点都加入到该聚类簇中,该聚类簇中的环境信息为同一类别的环境信息。例如图3所示,可以获得聚类簇101以及聚类簇102,聚类簇101内的各个点对应的环境信息为同一类别的环境信息,聚类簇102内的各个点对应的环境信息为同一类别的环境信息。
在另一种实施方式中,可以通过现有的聚类算法对环境信息进行聚类,如HDBSCAN算法、K-Means算法、MeanShift算法等。每一种聚类算法中,可以设置同一类别中图像的数量大于预设数量。
步骤S230:将聚类获得的同一类别的环境信息对应的图像提取为属于同一类别的图像,作为同类图组。
每个环境信息对应一个图像,即每个环境信息为一个图像的环境信息,因此,可以将同一类别的环境信息对应的图像提取为同一类别的图像,作为一个同类图组。另外,不属于任何一个类别的环境信息,其对应的图像则不属于任何一个类别。
如图3所示,环境信息为聚类簇101内的环境信息的图像,为同一个类别的图像,作为一个同类图组;环境信息为聚类簇102内的环境信息的图像,为同一个类别的图像,作为一个同类图组,根据图3所示的聚类,可以获得两个同类图组。点103以及点104分别对应的图像,不属于任何同类图组。
步骤S240:获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称。
步骤S250:根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
步骤S240以及步骤S250的具体描述可以参见本申请实施例中相同或相似的描述,在此不再赘述。
在本申请实施例中,根据环境信息对待分类图像进行聚类,降低了对图像特征的依赖性,使分类处理的速度更快功耗更小,并且,使获得的同一类别的图像的准确性更高。在对同类图组进行类别识别时,识别准确性更高,且识别到的具体类别中所包括的图像更准确。
本申请另一实施例提供的图像分类方法,详细描述了获取语义标签的方法以及类别的具体识别方法。请参见图4,该实施例提供的方法包括如下步骤。
步骤S310:对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组。
步骤S310可以参见本申请实施例中相同或相应的步骤,在此不再赘述。
步骤S320:对于同类图组中的每个图像,将所述图像输入标签标注模型,所述标签标注模型用于识别输入的图像中的物体并对识别的物体进行名称标注。
步骤S330:获取所述标签标注模型输出的所述图像的语义标签。
获取同类图组中各个图像的语义标签时,可以通过标签标注模型实现。该用于获取语义标签的标签标注模型可以是训练后的神经网络模型,可以是一个基于视觉的高级语义标签模型,如CNN神经网络模型,对输入其中的图像进行物体识别并标注物体的名称,输出识别到的物体的名称作为图像的语义标签。即,该语义标签获取的为图像中各个物体的名称,物体的每个名称可以作为一个语义标签。其中,识别的物体可以是自然界的任何事物以及任何人造的事物,如一张图像中有狗戴着帽子在草地上奔跑,则可以识别到物体的名称包括“狗”、“帽子”、“草地”。
可选的,对于同一物体,可以识别出一个或多个语义标签,例如,若有物体可能属于多种类别的事物,则对该物体可以识别出多个名称,如狗同时也是宠物,则对应够可以识别出“狗”以及“宠物”两个标签。
可选的,在本申请实施例中,图像中各个物体的特征还可以表示出图像所处的场景,该语义标签还可以包括图像的场景标签,即由物体构成的场景的名称,如根据天空的颜色等特征识别到的“阴天”标签、根据人物奔跑的追逐奔跑的姿态以及笑脸识别到的“游玩”标签等。
在本申请实施例中,标签标注模型对图像中物体的识别以及物体名称的标注体现了标签标注模型对语义标签的标注能力。对标签标注模型进行训练时,可以训练标签标注模型的对尽可能多的物体进行识别和标注,提高标签标注模型的标注能力。
在训练标签标注模型时,可以以标注有语义标签的图像作为训练样本,即每个训练样本可以预先人工标注其中存在的语义标签。为提高标签标注模型的标注能力,可以对其中的物体尽可能地进行标注,如将训练样本中所有物体进行标注,各个物体可以标注一个名称,或者多个不同的名称。将各个训练样本输入标签标注模型,在标签标注模型输出的语义标签与训练样本标注的标签标注模型差别大于预设差别时,调整标签标注模型中的各个参数,使标签标注模型对应训练样本输出的标签标注模型与训练样本标注的标签标注模型差别减小。通过多次比较与调整,直到标签标注模型对应训练样本输出的标签标注模型与训练样本标注的标签标注模型之间的差别小于预设差别,获得训练好的标签标注模型,该训练好的标签标注模型具有对图像中语义标签的标注能力。其中,标签标注模型输出的语义标签与训练样本标注的语义标签之间的差别可以通过相似度表示,当相似度小于预设相似度,可以认为差别小于预设差别。
在通过训练好的标签标注模型获取同类图组中各个图像的语义标签时,可以将各个图像输入标签标注模型,并获取标签标注模型对应图像输出的语义标签,获得同类图组中所有图像的语义标签。
步骤S340:根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
获得同类图组中所有图像的语义标签,则获得了同类图组对应的类别的不同物体名称。获取了同类图组中各个图像拍摄时的环境信息,则获取了同类图组对应的类别所具有的环境特征。结合所有的语义标签以及所有的环境信息,可以确定同类图组所属的具体类别,或者说,可以确定该同类图组的类别名称。
可选的,确定同类图组对应的类别所使用的环境信息与进行聚类时使用的环境信息种类可以相同,也可以不完全相同。可以理解的,同一图像的同一种环境信息是不变的,对于同一图像,其同一种环境信息在进行聚类时以及在进行类别确定时是相同的。如某图像拍摄时的地理位置,用于聚类以及用于确定类别时,都是相同的。
在一种具体的实施方式中,可以通过分类模型对同类图组所属类别进行确定。该分类模型可以是经过训练后,具有分类能力的神经网络模型,可以确定输入其中的分类信息组所属类别。如该分类模型可以是多模态的模型。该分类信息组可以包括多个语义标签组成的一条分类信息以及多个环境信息组成的一条分类信息。
在该实施方式中,分类模型确定同类图组所属类别时,输入分类模型的分类信息组可以包括同类图组中的两条分类信息,其中,将同类图组中各个图像的语义标签作为一条分类信息,将同类图组中各个图像的环境信息作为一条分类信息,所述分类模型用于确定输入其中的分类信息组所属类别。例如,将同类图组中所有图像的语义标签组合成一条分类信息,将同类图组中所述图像的环境信息组合为一条分类信息,将两条分类信息作为一个分类信息组,同时输入分类模型。如,同类图组中有图像A、图像B、图像C以及图像D,将图像A、图像B、图像C以及图像D的所有语义标签共同作为一条分类信息,将图像A、图像B、图像C以及图像D的所有用于分类的环境信息共同作为一条分类信息,该两条分类信息作为分类信息组输入分类模型。
分类模型确定输入其中的分类信息组所属类别时,该分类信息组的类别被确定为分类模型预先训练时学习的多个类别中的一个,或者为不属于任何一个类别,即没有实现分类。例如,在训练分类模型时,其学习的类别包括类别A、类别B、类别C以及类别D,则在使用该分类模型确定分类信息组的类别时,该文本组确定为该4个类别中的一个,或者不属于该四个类别中的任何一个。
即,在通过训练好的分类模型确定同类图组的具体类别时,可以将同类图组对应的分类信息组输入分类模型。再获取该分类模型输出的类别,作为该同类图组对应的类别。如,分类模型输出的类别为“婚礼”,表示该同类图组具体所属类别为婚礼;分类模型输出类别为“旅行”,表示该同类图组具体所属类别为旅行。
具体的,在对分类模型进行训练时,可以以标注有类别的分类信息组作为训练样本,训练样本标注的类别即标注的类别名称。每个训练样本标注一个类别名称,多个训练样本分别标注对应的类别名称。将训练样本输入分类模型,分类模型输出该分类模型所属类别。若分类模型输出的类别与训练样本本身标注的类别不同,则对分类模型的参数进行调整,使分类模型输出的类别向训练样本标注的类别靠近。多次进行输出类别与标注的类别的比较以及参数调整,直至分类模型输出的类别与训练样本的类别相同。通过多个训练样本对分类模型进行训练,调整分类模型的参数,直至分类模型的分类准确率达到预设准确率,获得可以用于对同类图组进行分类的分类模型。其中,分类模型输入第一数量的分类信息组,分类准确的分类信息组的数量为第二数量,第二数量占第一数量的比例表示分类模型的准确率。
可选的,在本申请实施例中,分类模型的输出可以是向量,该向量中包括多个数值,各个数值分别表示该分类模型学习的不同类别,每个数值对应一个类别的概率,向量中最大的数值若大于第一预设值,且其他数值小于第二预设值,表示分类模型输出的类别为该最大数值对应的类别,第一预设值大于或等于第二预设值。例如,分类模型输出的向量为(x,y,z),x对应类别A的概率,y对应类别B的概率,z对应类别C的概率,若x的值大于第一预设值,y和z的值小于第二预设值,可以确定该输出表示的类别为类别A。调整分类模型的输出向某个类别靠近,则是调整分类模型输出的向量中,该类别对应的数值增大至大于第一预设值,其他类别对应的数值减小至小于第二预设值。
可选的,在该实施方式中,为了提高分类模型分类的准确性,每次输入分类模型中的分类信息组可以是对应相同数量的图像获得的分类信息组。若同类图组中图像的数量小于预设数量,可以通过预设数据补齐。也就是说,通过预设数据表示同类图组中没有达到预设数量部分的图像,该预设数据可以是不对分类结果产生影响的数据,如0。对于图像数量小于预设数量的同类图组,在同类图组获得的分类信息组中补零,使补零后的分类信息组表示的为根据预设数量的图像获得的分类信息组。
具体的,在将同类图组对应的分类信息组输入分类模型之前,可以先判断所述同类图组中图像的数量是否达到预设数量。若没有达到预设数量,可以在所述分类信息组的每条分类信息中添加指定数量的预设数据,作为输入分类模型的分类信息组,该指定数量为预设数量与同类图组中图像数量之间的差值。其中,在语义标签所在的一条分类信息中,添加指定数量的预设数据,每个预设数据表示一个图像的语义标签;在环境信息对应的一条分类信息中,添加指定数量的预设数据,每个预设数据表示一个图像的环境信息。两条分类信息中添加的预设数据可以相同也可以不同,具体可以以不影响根据同类图组实际存在的图像进行分类的分类结果为准。
另外,若同类图组中图像的数量大于预设数量,可以从中选择预设数量的图像,以选择的图像对应的语义标签以及环境信息构成分类信息组,用于输入分类模型进行类型识别。可选的,由于相似度极高的图像如连拍的图像,对分类的贡献相似;而相似度过低的图像,可能并不属于同一类别,因此,可以从同类图组中选择相似度在第一相似度与第二相似度之间的预设数量的图像,该第一相似度小于第二相似度,第一相似度大于0,第二相似度小于百分之百,避免选择到相似度极高的图像以及与其他图像相似度极低的图像。
对应的,在对分类模型进行训练时,作为训练样本的不同分类信息组可以具有多样化,即不同的分类信息组中,对应的实际的图像的数量为小于或等于预设数量的不同值,不足预设数量的部分通过预设数据补齐。也就说,不同的训练样本,表示对应预设数量的图像,但是其中实际对应的图像可以是多样化的,不是实际对应图像的部分,通过预设数据进行表示,提高分类模型的分类准确性。
在另一种实施方式中,也可以是,预先设置每个类别可能对应的物体名称以及环境信息,作为类别信息,类别信息可以表示类别的特有性质。在确定同类图组所属类别时,可以通过语义识别,以同类图组的所有语义标签以及环境信息,作为同类图组的类别信息。将提取的类别信息与预先设置的每个类别中的类别信息进行相似度比较,将相似度最高且大于预设相似度的类别,作为该同类图组的类别。
可选的,在本申请实施例中,确定同类图组对应的类别,即确定了同类图组具体所属的类别,或者说同类图组的类别名称。为了方便查看,可以将各个同类图组分别以不同的文件夹显示,每个文件夹中存放一个同类图组中的图像,每个文件夹的命名为其存放的同类图组的名称。例如图5所示,分类相册中,“事件1”对应的文件夹中,存储的为类别为“事件1”的同类图组中的图像,打开该“事件1”对应的文件夹,可以看到类别为“事件1”的图像。同理,图5中的“事件2”对应的文件夹,存放类别名称为“事件2”的同类图组中的图像;图5中的“事件3”对应的文件夹,存放类别名称为“事件3”的同类图组中的图像。
在本申请实施例中,可以通过标签标注模型获取图像的语义标签,通过分类模型根据同类图组中所有图像的语义标签以及环境信息,对同类图组所属的具体类别进行确定。即在该实施例中,对图组的不同种类的环境信息的分布模式进行分析,如对图组的时间分布模式以及地理位置分布模式进行分析,再结合图组的语义标签进行分类,提高了同类图组类型确定的准确性。
本申请另一实施例还提供了一种图像分类装置400,如图6所示,该装置400包括:聚类模块410,用于对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组;标签获取模块420,用于获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称;分类模块430,用于根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
可选的,聚类模块410可以用于获取待分类图像拍摄时的环境信息;通过聚类算法,对获取的环境信息进行聚类;将聚类获得的同一类别的环境信息对应的图像提取为属于同一类别的图像。
可选的,环境信息可以包括图像拍摄时的地理坐标以及时间。
可选的,标签获取模块420可以用于对于同类图组中的每个图像,将所述图像输入标签标注模型,所述标签标注模型用于识别输入的图像中的物体并对识别的物体进行名称标注;获取所述标签标注模型输出的所述图像的语义标签。
可选的,分类模块430可以用于将同类图组对应的分类信息组输入分类模型,所述分类信息组包括同类图组中的两条分类信息,其中,将同类图组中各个图像的语义标签作为一条分类信息,将同类图组中各个图像的环境信息作为一条分类信息,所述分类模型用于确定输入其中的分类信息组所属类别;获取所述分类模型输出的类别,作为所述同类图组对应的类别。
可选的,分类模块430还可以用于,将同类图组对应的分类信息组输入分类模型之前,判断所述同类图组中图像的数量是否达到预设数量;若否,在所述分类信息组的每条分类信息中添加指定数量的预设数据,作为输入分类模型的分类信息组,所述指定数量为预设数量与同类图组中图像数量之间的差值。
可选的,待分类图像可以为电子设备的相册中的图像,所述同类图组对应的类别为所述同类图组所属的事件。
本申请实施例提供的图像分类方法及装置,可以通过无监督的聚类算法,根据时间、地点等环境信息,智能地过滤无关图片,获取相关图片实现聚类,避免人为设定规则带来的局限性。通过标签标注模型对同类图组提取语义标签,将低语义的视觉信息转换为高级语义的文本信息,提高了整个模型的抽象能力。再通过基于分类模型,利用语义标签以及环境信息,推理出同类图组的事件类别。该图像分类方法及装置可以不读取用户信息,利用少量图像信息进行图像的聚类以及语义标签的获取,即可完成高准确率的相册事件提取功能,且分类准确。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述的各个方法实施例之间可以相互参照;上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中,也可以配置在相同的电子设备中,本申请实施例并不限定。
请参考图7,其示出了本申请实施例提供的一种电子设备500的结构框图。该电子设备可以包括一个或多个处理器510(图中仅示出一个),存储器520以及一个或多个程序。其中,所述一个或多个程序被存储在所述存储器520中,并被配置为由所述一个或多个处理器510执行。所述一个或多个程序被处理器执行用于执行前述实施例所描述的方法。
处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分,通过运行或执行存储在存储器520内的指令、程序、代码集或指令集,以及调用存储在存储器520内的数据,执行电子设备500的各种功能和处理数据。可选地,处理器510可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器510中,单独通过一块通信芯片进行实现。
存储器520可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。
请参考图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质600中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种图像分类方法,其特征在于,所述方法包括:
对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组;
获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称;
根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
2.根据权利要求1所述的方法,其特征在于,所述对待分类图像进行聚类,提取属于同一类别的图像,包括:
获取待分类图像拍摄时的环境信息;
通过聚类算法,对获取的环境信息进行聚类;
将聚类获得的同一类别的环境信息对应的图像提取为属于同一类别的图像。
3.根据权利要求1或2所述的方法,其特征在于,所述环境信息包括图像拍摄时的地理坐标以及时间。
4.根据权利要求1所述的方法,其特征在于,所述获取同类图组中各个图像的语义标签,包括:
对于同类图组中的每个图像,将所述图像输入标签标注模型,所述标签标注模型用于识别输入的图像中的物体并对识别的物体进行名称标注;
获取所述标签标注模型输出的所述图像的语义标签。
5.根据权利要求1所述的方法,其特征在于,所述根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别,包括:
将同类图组对应的分类信息组输入分类模型,所述分类信息组包括同类图组中的两条分类信息,其中,将同类图组中各个图像的语义标签作为一条分类信息,将同类图组中各个图像的环境信息作为一条分类信息,所述分类模型用于确定输入其中的分类信息组所属类别;
获取所述分类模型输出的类别,作为所述同类图组对应的类别。
6.根据权利要求5所述的方法,其特征在于,所述将同类图组对应的分类信息组输入分类模型之前,还包括:
判断所述同类图组中图像的数量是否达到预设数量;
若否,在所述分类信息组的每条分类信息中添加指定数量的预设数据,作为输入分类模型的分类信息组,所述指定数量为预设数量与同类图组中图像数量之间的差值。
7.根据权利要求1所述的方法,其特征在于,所述待分类图像为电子设备的相册中的图像,所述同类图组对应的类别为所述同类图组所属的事件。
8.一种图像分类装置,其特征在于,所述装置包括:
聚类模块,用于对待分类图像进行聚类,提取属于同一类别的图像,作为同类图组;
标签获取模块,用于获取同类图组中各个图像的语义标签,所述图像的语义标签为图像中一个或多个物体分别对应的名称;
分类模块,用于根据同类图组中各个图像的语义标签以及环境信息,确定所述同类图组对应的类别。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916934.5A CN112069342A (zh) | 2020-09-03 | 2020-09-03 | 图像分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916934.5A CN112069342A (zh) | 2020-09-03 | 2020-09-03 | 图像分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112069342A true CN112069342A (zh) | 2020-12-11 |
Family
ID=73666385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010916934.5A Pending CN112069342A (zh) | 2020-09-03 | 2020-09-03 | 图像分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069342A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031877A (zh) * | 2021-04-12 | 2021-06-25 | 中国移动通信集团陕西有限公司 | 数据存储方法、装置、设备及介质 |
CN113591865A (zh) * | 2021-07-28 | 2021-11-02 | 深圳甲壳虫智能有限公司 | 一种回环检测方法、装置以及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030184653A1 (en) * | 2002-03-29 | 2003-10-02 | Akito Ohkubo | Method, apparatus, and program for classifying images |
US20100226582A1 (en) * | 2009-03-03 | 2010-09-09 | Jiebo Luo | Assigning labels to images in a collection |
US8391618B1 (en) * | 2008-09-19 | 2013-03-05 | Adobe Systems Incorporated | Semantic image classification and search |
US20150363640A1 (en) * | 2014-06-13 | 2015-12-17 | Google Inc. | Automatically organizing images |
CN109857884A (zh) * | 2018-12-20 | 2019-06-07 | 郑州轻工业学院 | 一种自动图像语义描述方法 |
US20190325259A1 (en) * | 2018-04-12 | 2019-10-24 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
-
2020
- 2020-09-03 CN CN202010916934.5A patent/CN112069342A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030184653A1 (en) * | 2002-03-29 | 2003-10-02 | Akito Ohkubo | Method, apparatus, and program for classifying images |
US8391618B1 (en) * | 2008-09-19 | 2013-03-05 | Adobe Systems Incorporated | Semantic image classification and search |
US20100226582A1 (en) * | 2009-03-03 | 2010-09-09 | Jiebo Luo | Assigning labels to images in a collection |
US20150363640A1 (en) * | 2014-06-13 | 2015-12-17 | Google Inc. | Automatically organizing images |
US20190325259A1 (en) * | 2018-04-12 | 2019-10-24 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
CN109857884A (zh) * | 2018-12-20 | 2019-06-07 | 郑州轻工业学院 | 一种自动图像语义描述方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031877A (zh) * | 2021-04-12 | 2021-06-25 | 中国移动通信集团陕西有限公司 | 数据存储方法、装置、设备及介质 |
CN113031877B (zh) * | 2021-04-12 | 2024-03-08 | 中国移动通信集团陕西有限公司 | 数据存储方法、装置、设备及介质 |
CN113591865A (zh) * | 2021-07-28 | 2021-11-02 | 深圳甲壳虫智能有限公司 | 一种回环检测方法、装置以及电子设备 |
CN113591865B (zh) * | 2021-07-28 | 2024-03-26 | 深圳甲壳虫智能有限公司 | 一种回环检测方法、装置以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993191B (zh) | 一种图像处理方法和装置 | |
CN105144239B (zh) | 图像处理装置、图像处理方法 | |
US10599709B2 (en) | Object recognition device, object recognition method, and program for recognizing an object in an image based on tag information | |
JP5848336B2 (ja) | 画像処理装置 | |
JP6023058B2 (ja) | 画像処理装置、画像処理方法、プログラム、集積回路 | |
US7657089B2 (en) | Automatic classification of photographs and graphics | |
US10949702B2 (en) | System and a method for semantic level image retrieval | |
CN112257808B (zh) | 用于零样本分类的集成协同训练方法、装置及终端设备 | |
CN112328823A (zh) | 多标签分类模型的训练方法、装置、电子设备及存储介质 | |
CN112990318B (zh) | 持续学习方法、装置、终端及存储介质 | |
CN112633297A (zh) | 目标对象的识别方法、装置、存储介质以及电子装置 | |
CN112069342A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
Wang et al. | Remote-sensing image retrieval by combining image visual and semantic features | |
CN110852263B (zh) | 一种基于人工智能的手机拍照识别垃圾分类方法 | |
CN113762309A (zh) | 对象匹配方法、装置及设备 | |
CN112069335A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
Dao et al. | Robust event discovery from photo collections using Signature Image Bases (SIBs) | |
CN112069981A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN115424293A (zh) | 活体检测方法、活体检测模型的训练方法及装置 | |
CN112069357B (zh) | 视频资源处理方法、装置、电子设备及存储介质 | |
CN115546824A (zh) | 禁忌图片识别方法、设备及存储介质 | |
CN112580750A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN110853115A (zh) | 一种开发流程页面的创建方法及设备 | |
CN111178409A (zh) | 基于大数据矩阵稳定性分析的图像匹配与识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |