CN110378330B - 图片分类方法及相关产品 - Google Patents

图片分类方法及相关产品 Download PDF

Info

Publication number
CN110378330B
CN110378330B CN201810327743.8A CN201810327743A CN110378330B CN 110378330 B CN110378330 B CN 110378330B CN 201810327743 A CN201810327743 A CN 201810327743A CN 110378330 B CN110378330 B CN 110378330B
Authority
CN
China
Prior art keywords
picture
classification
feature data
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810327743.8A
Other languages
English (en)
Other versions
CN110378330A (zh
Inventor
叶青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201810327743.8A priority Critical patent/CN110378330B/zh
Publication of CN110378330A publication Critical patent/CN110378330A/zh
Application granted granted Critical
Publication of CN110378330B publication Critical patent/CN110378330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种图片分类方法及相关产品,其中,图片分类方法包括:确定待分类的至少一张图片所适配的目标图片分类策略,目标图片分类策略包括第一图片分类策略和第二图片分类策略,第一图片分类策略为基于文本信息识别的分类策略,第二图片分类策略为非基于文本信息识别的分类策略;按照目标图片分类策略确定至少一张图片中每张图片所属的图片类别;根据每张图片所属的图片类别将每张图片划分到对应的图集中。本申请实施例根据图片内容不同适配不同的图片分类策略,并根据图片张数和拍摄目标数的区别提取不同的特征数据,实现了对图片更准确和更高效的分类。

Description

图片分类方法及相关产品
技术领域
本申请涉及图像处理技术领域,具体涉及图片分类方法及相关产品。
背景技术
随着电子产品的快速发展,越来越多的手机和平板电脑等电子产品都包含数码相机功能,即通过内置或外界的数码相机进行静态图片或动态视频的拍摄,并且随着摄像头像素的提高,电子产品的拍摄效果也越来越接近传统卡片相机甚至单反相机,这极大地便利和丰富了人们的生活。但与此同时,电子产品中存放的照片数量也急剧增加,各种内容和场合的照片,涉及学习、生活、娱乐、工作等方方面面,充斥着用户的电子产品,且因为海量图片缺乏科学分类,给用户翻阅照片的过程造成了极大的不便。
发明内容
本申请实施例提供了一种图片分类方法及相关产品,以期通过对照片内容的解析实现照片分类,方便用户更高效地查找需要的照片。
第一方面,本申请实施例提供一种图片分类方法,应用于电子装置,所述图片分类方法包括:确定待分类的至少一张图片所适配的目标图片分类策略,所述目标图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为非基于文本信息识别的分类策略;
按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;
根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中。
第二方面,本申请提供一种图片分类装置,所述图片分类装置包括分类策略确定单元、图片类别确定单元和图集划分单元,其中:
所述分类策略确定单元,用于确定待分类的至少一张图片所适配的目标图片分类策略,图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为基于特征提取和模型预测的分类策略;
所述图片类别确定单元,用于按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;
所述图集划分单元,用于根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中。
第三方面,本申请实施例提供一种电子装置,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面任一方法所述的步骤的指令。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,电子装置首先确定待分类的至少一张图片所适配的目标图片分类策略,其次,按照目标分类策略确定至少一张图片中每张图片所属的图片类别,最后,根据每张图片所属的图片类别将每张图片划分到对应的图集中。由于图片分类策略包括第一图片分类策略和第二图片分类策略,第一图片分类策略为基于文本信息识别的分类策略,第二图片分类策略为基于特征提取和模型预测的分类策略,即文本信息为主的图片通过第一图片分类策略进行分类,避免文本信息为主的图片中的非文本信息影响分类准确度,非文本信息为主的图片通过第二图片分类策略进行分类,避免非文本信息为主的图片中的文本信息影响分类准确度,故而电子装置能够针对文本信息为主的图片和非文本信息为主的图片,提供非耦合的差异化图片分类策略,有利于提高电子装置分类图片类别的准确度和效率。
附图说明
下面将对本申请实施例所涉及到的附图作简单地介绍。
图1A是本申请实施例提供的一种图片分类方法流程示意图;
图1B是本申请实施例提供的一种包括单个被拍摄目标的单张图片的处理过程示意图;
图1C是本申请实施例提供的一种包括多个被拍摄目标的单张图片分类过程示意图;
图1D是本申请实施例提供的一种包括多个相同拍摄目标的多张图片分类过程示意图,图(a)为第一状态图片,图(b)为第二状态图片;
图2是本申请实施例提供的另一种图片分类方法流程示意图;
图3是本申请实施例提供的又一种图片分类方法流程示意图;
图4是本申请实施例提供的一种电子装置的结构示意图;
图5是本申请实施例提供的一种图片分类装置的功能单元组成框图;
图6是与本发明实施例提供的另一种电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面对本申请实施例进行详细介绍。
请参阅图1A,图1A是本申请实施例提供的一种图片分类方法流程示意图,如图1A所示,本图片分类方法包括如下步骤:
步骤101、确定待分类的至少一张图片所适配的目标图片分类策略,所述目标图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为非基于文本信息识别的分类策略。
具体地,基于文本信息识别的分类策略,即通过对图片中文本信息进行识别,获得文本关键字,并根据文本关键字进行分类;非基于文本信息识别的分类,即直接对图片进行特征数据提取,然后将提取的特征数据导入通过对训练集图片进行特征提取和特征训练获得分类模型,获得图片分类结果。其中,文本信息为主的图片适配基于文本信息识别的分类策略,非文本信息为主的图片适配非基于文本信息识别的分类。
确定图片是否以文本信息为主的方法包括判断文本区域的重要程度是否超过预设阈值,若超过预设阈值,则确定图片所适配的分类策略为第一图片分类策略。具体方法包括:获得文本区域和非文本区域的面积及其面积比值;若文本区域与非文本区域的面积比值大于预设比值,例如50%,60%,70%等,则确定文本区域的重要程度超过预设阈值。
除此之外,确定图片是否以文本信息为主的方法还包括根据文本区域与图片区域颜色比值来确定,例如文本区域的颜色为A1(r1,g1,b1),图片区域的颜色为A2(r2,g2,b2),那么将RGB模式转换为YUV模式,得出A1的亮度Y1和A2的亮度Y2,并判断Y1与Y2的差值是否大于预设亮度阈值,若是,则判断图片适配的分类策略为第一图片分类策略。其中RGB模式即三原色模式,YUV模式是一种用于优化彩色视频信号传输的颜色编码方法。预设亮度阈值可设置为30,40,50等。
步骤102、按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别。
目标图片分类策略即第一图片分类策略或第二图片分类策略。图片分类策略可根据步骤101中的方法进行确定。
在可选的示例中,目标图片分类策略为第二图片分类策略;至少一张图片包括单张图片,单张图片包括单个被拍摄目标;按照目标图片分类策略确定至少一张图片中每张图片所属的图片类别,包括:识别每张图片中的被拍摄目标;根据被拍摄目标确定每张图片的特征数据,特征数据包括静态特征数据,其中,静态特征数据包括单张图片中每个被拍摄目标的第一特征数据;针对每张图片,将每张图片的特征数据导入预训练的图片分类模型中,得到每张图片的分类结果;根据每张图片的分类结果确定至少一张图片中每张图片所属的图片类别。
静态特征数据即为单张图片中已表现的特征数据。静态特征中的第一特征数据为单个被拍摄目标自身包含的特征数据,若被拍摄目标为人物,则包括人脸识别数据,人物发型、衣着相关的边缘位置、形状颜色等数据,以及人物动作姿态等数据,若被拍摄目标为物体,则包括物体的形状、颜色、纹理、相对大小、空间位置等。
请参阅图1B,图1B是本申请实施例提供的一种包括单个被拍摄目标的单张图片的处理过程示意图,如图1B所示,识别该图片中的被拍摄目标,为单个的人物,对该人物进行静态特征提取。获取人物的人脸识别数据,人物的发型、衣着,根据这些特征数据可以确定人物的性别、爱好、情绪或季节等,根据人物肢体特征数据,如图1B中人物手臂抬起的角度A和角度B,确定人物的动作。将提取的静态特征数据导入预先根据训练集和分类器训练出的分类模型中,得到该图片的分类结果。其中特征提取可采用的方法包括主成分分析(Principle Component Analysis,PCA),线性判别分析(Linear Discriminant Analysis,LDA)或局部二值模式(Local Binary Patterns,LBP)等,对提取出的特征向量进行分类,采用的分类器可包括支持向量机(Support Vector Machine,SVM),人工神经网络(Artificial Neural Network,ANN)或邻近算法(k-NearestNeighbor,KNN)等。
可见,在本申请实施例中,对非文本信息为主的图片采用第二图片分类策略,且图片为包含单个被拍摄目标的单张图片,提取的特征数据为被拍摄目标的静态特征数据中的第一特征数据,这种特征数据提取方法能够有助于图片进行更高效的分类。
在可选的示例中,目标图片分类策略为第二图片分类策略;至少一张图片包括单张图片,单张图片包括多个被拍摄目标;按照目标图片分类策略确定至少一张图片中每张图片所属的图片类别,包括:识别每张图片中的被拍摄目标;据被拍摄目标确定每张图片的特征数据,特征数据包括静态特征数据,其中,静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据;针对每张图片,将每张图片的特征数据导入预训练的图片分类模型中,得到每张图片的分类结果;根据每张图片的分类结果确定至少一张图片中每张图片所属的图片类别。
其中静态特征中的第二特征数据为多个被拍摄目标之间的关系特征数据,包括多个人之间的位置关系、互动姿态等特征数据,人与物之间的位置关系、所属关系等特征数据,以及物与物之间的空间位置关系特征数据。
请参阅图1C,图1C是本申请实施例提供的一种包括多个被拍摄目标的单张图片分类过程示意图,如图1C所示,识别该图片中包含被拍摄目标1和被拍摄目标2,根据被拍摄目标1和被拍摄目标2确定图片静态特征数据,包括第一特征数据,即被拍摄目标1的人脸数据,发型、衣着等着装数据和动作特征数据,被拍摄目标2中狗的形体特征、动作特征等;第二特征数据,即被拍摄目标1和被拍摄目标2的关系特征,包括位置关系、互动姿势等。根据第一特征数据和第二特征数据,确定该图片所属的类别。
可见,在本申请实施例中,对非文本信息为主的图片采用第二图片分类策略,且图片为包含多个被拍摄目标的单张图片,提取的特征数据为每个被拍摄目标的静态特征数据中的第一特征数据以及多个被拍摄目标之间的第二特征数据,这个过程有助于提取完整的特征数据,对图片进行全面的描述,最终得到精确的分类结果。
在可选的示例中,目标图片分类策略为第二图片分类策略;至少一张图片包括多张图片,多张图片中的拍摄主体相同,且拍摄主体包括多个被拍摄目标;按照目标图片分类策略确定至少一张图片中每张图片所属的图片类别,包括:识别每张图片中的被拍摄目标;根据被拍摄目标确定每张图片的特征数据,特征数据包括静态特征数据和动态特征数据,其中,静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据,动态特征数据包括多张图片中同一被拍摄目标的第三特征数据;针对每张图片,将每张图片的特征数据导入预训练的图片分类模型中,得到每张图片的分类结果;根据每张图片的分类结果确定至少一张图片中每张图片所属的图片类别。
其中动态特征数据为多张图片中动态变化的特征数据。
请参阅图1D,图1D是本申请实施例提供的一种包括多个相同拍摄目标的多张图片分类过程示意图,如图1D所示,包含两张图片图(a)和图(b),图(a)为第一状态图片,图(b)为第二状态图片,其中图(a)和图(b)的拍摄主体相同,都为被拍摄目标3和被拍摄目标4。提取图(a)和图(b)中的静态特征数据,包括第一特征数据和第二特征数据,第一特征数据即被拍摄目标3和被拍摄目标4中人物的人脸识别数据,衣着和动作识别相关参数数据,第二特征数据即被拍摄目标3和被拍摄目标4之间的关系特征数据,包括位置关系和互动关系特征数据。然后对比图(a)和图(b),提取动态特征数据,包括图(a)和图(b)中被拍摄目标3的动作变化,表情变化,位置变化等特征数据,同理可提取被拍摄目标4的动作变化,表情变化,位置变化等特征数据。获取到静态特征数据和动态特征数据后,将特征数据导入分类模型中可确定这两张图片所属的类别。
可见,在本申请实施例中,对非文本信息为主的图片采用第二图片分类策略,且图片为包含多个被拍摄目标的多张图片,提取的特征数据为每个被拍摄目标的静态特征数据中的第一特征数据和多个被拍摄目标之间的第二特征数据,以及多张图片中同一被拍摄目标的动态特征数据,这个过程有助于提取相似图片动态变化过程中的特征数据,对图片特征数据进行对比从而获得更全面的特征描述,最终得到精确的分类结果。
可选的,目标图片分类策略为第二图片分类策略;至少一张图片包括多张图片,多张图片中的拍摄主体相同,且拍摄主体包括单个被拍摄目标;按照目标图片分类策略确定至少一张图片中每张图片所属的图片类别,包括:识别每张图片中的被拍摄目标;根据被拍摄目标确定每张图片的特征数据,特征数据包括静态特征数据和动态特征数据,其中,静态特征数据包括单张图片中被拍摄目标的第一特征数据,动态特征数据包括多张图片中被拍摄目标的第三特征数据;针对每张图片,将每张图片的特征数据导入预训练的图片分类模型中,得到每张图片的分类结果;根据每张图片的分类结果确定至少一张图片中每张图片所属的图片类别。
在可选的示例中,目标图片分类策略为第一图片分类策略;按照目标图片分类策略确定至少一张图片中每张图片所属的图片类别包括:根据多个灰度阈值对至少一张图片进行二值化处理,得到多个灰度阈值对应的黑白色区域,并根据灰度阈值和黑白色区域,获得图片的MSER;根据MSER确定文本区域,对文本区域进行图片预处理和特征提取,获得文本区域对应的特征向量;采用分类器对特征向量进行分类处理,获得文本区域的文字识别结果;根据文字识别结果确定至少一张图片的图片类别。
最大稳定极值区域(Maximally Stable Extremal Regions,MSER)是当使用不同的灰度阈值对图像进行二值化时得到的最稳定的区域。获得一张图片I的MSER的过程包括:设置多个灰度阈值t,其中t∈(0,255),对应的阈值图像为I1,I2,……,I255,将这些图像进行二值化处理,得到阈值图像对应的黑白区域,其中在多个阈值变化过程中,黑白色区域变化率小于一定面积阈值的极大值区域即为MSER。对于得到的多个MSER,需要进行进一步的处理,包括区域清理,即清理掉面积过大或过小的区域以及面积变化率过大或过小的区域。这些MSER区域可能因为拍摄视角的问题存在形变,需要对其进行仿射变换变成规范形,可采用椭圆形、平行四边形和三角形等仿射协变区域对其进行调整,获得稳定有效的MSER区域,即为文本区域。采用空间映射函数,例如Hough变换与Radon变换等,对文本进行校正,并通过投影直方图分割出单行的文本的图片。然后,对文本区域进行特征提取,可采用的特征提取方法包括PCA、LDA或LBP等,分类器也可以采用SVM、ANN或KNN等。
可见,在本申请实施例中,对文本信息为主的图片采用第一图片分类策略,进行文本信息相关的特征提取,并进行文本识别,最终根据文本识别结果获得图片所属的类别。这个过程可以避免非文本信息对图片分类过程造成干扰,有助于得到更精确的分类结果。
可选的,获得图片所属的类别,可以通过若干个关键词来描述,例如图1B,关键词可以包括“长发”、“裙子”、“笑容”、“扬手”等,图1C的关键词可包括“男孩”、“奔跑”、“狗”、“愉快”,图1D的关键词可包括“男孩”、“女孩”、“跳舞”、“开心”等;也可以通过某几个固定的词来描述,例如根据图片情绪设置三种类别,“积极情绪”,“消极情绪”和“无明显情绪”,根据拍摄目标个数设置为“单个拍摄目标”和“多个拍摄目标”,单个拍摄目标可分为子类别“人”或“物”,多个拍摄目标可分为子类别“人与人”,“人与物”或“物与物”,多个拍摄目标又可包含二级子类别,“亲密关系”和“非亲密关系”,那么图1B的描述词为“积极情绪”、“单个拍摄目标”、“人”,图1C的描述词为“积极情绪”、“多个拍摄目标”、“人与物”、“亲密关系”,图1D的描述词为“积极情绪”、“多个拍摄目标”、“人与人”、“非亲密关系”。上述过程可通过表1进行呈现:
表1不同类型图片类别确定过程
Figure BDA0001627103840000081
Figure BDA0001627103840000091
确定图片分类后,执行步骤103。
步骤103、根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中。
图集是预先设置的图片集合,可以根据图片训练集和选择的分类器预先获得,也可根据用户个性化设置获得。可选的,每个图集对应若干个关键词,当图片所属的图片类别对应的关键字与图集对应的关键字匹配时,则将该图片划分到对应图集中。图集可以根据社会活动分为“工作、生活、学习、娱乐”四个类别,也可以根据内容主题分为“生日会”、“节日”、“购物”、“运动”、“爱宠”、“度假”、“休闲”、“聚会”、“会议”、“上课”等,内容主题为可扩展类别,当检测到图片所属的图片类别关键字与图集对应的关键字匹配度小于预设阈值时,根据图片所属的图片类别对应的关键字建立新的图集,并将该图片分类到新的图集中。
可选的,对图片进行分类后,每个分类结果包含若干个关键词用于描述该分类,可以为图片添加关键词标签,用于用户根据关键词标签搜索需要的图片。
可以看出,本申请实施例中,电子装置首先确定待分类的至少一张图片所适配的目标图片分类策略,其次,按照目标分类策略确定至少一张图片中每张图片所属的图片类别,最后,根据每张图片所属的图片类别将每张图片划分到对应的图集中。由于图片分类策略包括第一图片分类策略和第二图片分类策略,第一图片分类策略为基于文本信息识别的分类策略,第二图片分类策略为基于特征提取和模型预测的分类策略,即文本信息为主的图片通过第一图片分类策略进行分类,避免文本信息为主的图片中的非文本信息影响分类准确度,非文本信息为主的图片通过第二图片分类策略进行分类,避免非文本信息为主的图片中的文本信息影响分类准确度,故而电子装置能够针对文本信息为主的图片和非文本信息为主的图片,提供非耦合的差异化图片分类策略,有利于提高电子装置分类图片类别的准确度和效率。
请参阅图2,图2是本申请实施例提供的另一种图片分类方法流程示意图,如图2所示,所述图片分类方法包括如下步骤:
步骤201、确定至少一张图片适配第一图片分类策略;
步骤202、根据多个灰度阈值对所述至少一张图片进行二值化处理,得到所述多个灰度阈值对应的黑白色区域,并根据所述灰度阈值和所述黑白色区域,获得所述图片的MSER;
步骤203、根据所述MSER确定所述文本区域,对所述文本区域进行图片预处理和特征提取,获得文本区域对应的特征向量;
步骤204、采用分类器对所述特征向量进行分类处理,获得所述文本区域的文字识别结果;
步骤205、根据所述文字识别结果确定所述至少一张图片中每张图片所属的图片类别。
在本申请实施例中,为文本信息为主的图片适配第一图片分类策略,确定图片中的文本区域并对文本区域进行特征提取,最后完成文本识别,并根据文本识别结果对图片进行分类。如此采用基于文本信息的图片分类策略,可以避免非文本信息对图片分类造成的干扰,提升图片分类准确率和效率。
请参阅图3,图3是本申请实施例提供的又一种图片分类方法流程示意图,如图3所示,所述图片分类方法包括如下步骤:
步骤301、确定至少一张图片适配第二图片分类策略;
步骤302、确定所述至少一张图片包括单张图片,所述单张图片包括单个被拍摄目标;
步骤303、识别所述每张图片中的被拍摄目标,据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据;
步骤304、确定所述至少一张图片包括单张图片,所述单张图片包括多个被拍摄目标;
步骤305、识别所述每张图片中的被拍摄目标,根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据;
步骤306、确定所述至少一张图片包括多张图片,所述多张图片中的拍摄主体相同,且所述拍摄主体包括多个被拍摄目标;
步骤307、识别所述每张图片中的被拍摄目标,根据所述被拍摄目标确定所述每张图片的特征数据,识别所述每张图片中的被拍摄目标,根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据中的第一特征数据和第二特征数据以及动态特征数据中的第三特征数据;
步骤308、针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
步骤309、根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别;
步骤310、将所述至少一张图片分类为所述确定的图片类别。
在本申请实施例中,为非文本信息为主的图片适配第二图片分类策略,然后根据图片的张数、拍摄主体和被拍摄目标数对图片进行特征数据提取。其中针对单张且包含单个被拍摄目标的图片,确定图片的特征数据包括被拍摄目标的静态特征数据中的第一特征数据,若针对单张且包含多个被拍摄目标的图片,确定图片的特征数据包括每个被拍摄目标的静态特征数据中的第一特征数据和多个被拍摄目标之间的第二特征数据,若针对多张且拍摄主体相同、包含多个被拍摄目标的图片,则确定图片的特征数据包括每个被拍摄目标静态特征数据和多张图片中同一被拍摄目标的动态特征数据。最后根据图片的特征数据确定图片所属类别,并根据图片所属类别将每张图片划分到对应的图集中。如此采用非基于文本信息的分类策略,可以避免图片中不重要的文本信息对图片分类造成的干扰,提升图片分类准确度和效率。另外,根据连续图片张数和图片中被拍摄目标个数的不同,提取不同的特征数据,可以获得更丰富和更满足用户需求的分类结果,提升了电子装置进行图片分类的智能性。
如上述一致地,请参阅图4,图4是本申请实施例提供的一种电子装置的结构示意图,如图4所示,该电子装置包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:确定待分类的至少一张图片所适配的目标图片分类策略,所述目标图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为非基于文本信息识别的分类策略;按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中。
可以看出,本申请实施例中,电子装置首先确定待分类的至少一张图片所适配的目标图片分类策略,其次,按照目标分类策略确定至少一张图片中每张图片所属的图片类别,最后,根据每张图片所属的图片类别将每张图片划分到对应的图集中。由于图片分类策略包括第一图片分类策略和第二图片分类策略,第一图片分类策略为基于文本信息识别的分类策略,第二图片分类策略为基于特征提取和模型预测的分类策略,即文本信息为主的图片通过第一图片分类策略进行分类,避免文本信息为主的图片中的非文本信息影响分类准确度,非文本信息为主的图片通过第二图片分类策略进行分类,避免非文本信息为主的图片中的文本信息影响分类准确度,故而电子装置能够针对文本信息为主的图片和非文本信息为主的图片,提供非耦合的差异化图片分类策略,有利于提高电子装置分类图片类别的准确度和效率。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子装置进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图5是本申请实施例中所涉及的图片分类装置500的功能单元组成框图。该图片分类装置500应用于电子装置,该图片分类装置500包括分类策略确定单元501、图片类别确定单元502和图集划分单元503,其中,所述分类策略确定单元501,用于确定待分类的至少一张图片所适配的目标图片分类策略,图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为基于特征提取和模型预测的分类策略;所述图片类别确定单元502,用于按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;所述图集划分单元503,用于根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中。
可以看出,本申请实施例中,电子装置首先确定待分类的至少一张图片所适配的目标图片分类策略,其次,按照目标分类策略确定至少一张图片中每张图片所属的图片类别,最后,根据每张图片所属的图片类别将每张图片划分到对应的图集中。由于图片分类策略包括第一图片分类策略和第二图片分类策略,第一图片分类策略为基于文本信息识别的分类策略,第二图片分类策略为基于特征提取和模型预测的分类策略,即文本信息为主的图片通过第一图片分类策略进行分类,避免文本信息为主的图片中的非文本信息影响分类准确度,非文本信息为主的图片通过第二图片分类策略进行分类,避免非文本信息为主的图片中的文本信息影响分类准确度,故而电子装置能够针对文本信息为主的图片和非文本信息为主的图片,提供非耦合的差异化图片分类策略,有利于提高电子装置分类图片类别的准确度和效率。
在一个可能的示例中,所述目标图片分类策略为第一图片分类策略,在所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别方面,所述图片类别确定单元502具体用于:根据多个灰度阈值对所述至少一张图片进行二值化处理,得到所述多个灰度阈值对应的黑白色区域,并根据所述灰度阈值和所述黑白色区域,获得所述图片的MSER;根据所述MSER确定所述文本区域,对所述文本区域进行图片预处理和特征提取,获得文本区域对应的特征向量;采用分类器对所述特征向量进行分类处理,获得所述文本区域的文字识别结果;根据所述文字识别结果确定所述至少一张图片中每张图片所属的图片类别。
在一个可能的示例中,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括单张图片,所述单张图片包括单个被拍摄目标,在所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别方面,所述图片类别确定单元502具体用于:识别所述每张图片中的被拍摄目标;根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据;针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
在一个可能的示例中,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括单张图片,所述单张图片包括多个被拍摄目标,在所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别方面,所述图片类别确定单元502具体用于:识别所述每张图片中的被拍摄目标;根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据;针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
在一个可能的示例中,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括多张图片,所述多张图片中的拍摄主体相同,且所述拍摄主体包括多个被拍摄目标,在所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别方面,所述图片类别确定单元502具体用于:识别所述每张图片中的被拍摄目标;根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据和动态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据,所述动态特征数据包括所述多张图片中同一被拍摄目标的第三特征数据;针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
本申请实施例还提供了另一种电子装置,如图6所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该电子装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端(Point Of Sales,POS)、车载电脑等任意终端设备,以电子装置为手机为例:
图6示出的是与本发明实施例提供的移动终端相关的手机的部分结构框图。如图6所示的手机6000包括:至少一个处理器6011、存储器6012、通信接口(包括SIM接口6014、音频输入接口6015、串行接口6016和其他通信接口6017)、信号处理模块6013(包括接收器6018、发射器6019、LOs6020和信号处理器6021)、输入输出模块(包括显示屏6022、扬声器6023、麦克风6024、传感器6025等)。本领域技术人员可以理解,图6中示出的电子装置结构并不构成对电子装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体地介绍:
处理器6011是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器6012内的软件程序和/或模块,以及调用存储在存储器内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选地,处理器可集成应用处理器(例如,CPU,或者,GPU)和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,所述处理器6011,用于执行如下步骤:确定待分类的至少一张图片所适配的目标图片分类策略,图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为基于特征提取和模型预测的分类策略;按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;将所述至少一张图片分类为确定的图片类别。
存储器6012可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
通信接口用于与外部设备进行通信连接,包括SIM接口6014、音频输入接口6015、串行接口6016和其他通信接口6017。
输入输出模块6010可包括显示屏6022、扬声器6023、麦克风6024、传感器6025等,其中,显示屏6022用于显示拍摄到的第一图像,以及对得到的3D人脸图像进行展示,传感器6025可包括光传感器、运动传感器、脑电波传感器、摄像头以及其他传感器。具体地,光传感器可包括环境传感器及接近传感器,其中,环境传感器可根据环境光线的明暗来调节触控显示屏的亮度,接近传感器可在手机移动到耳边时,关闭触控显示屏和/或背光。运动传感器例如可以是加速计传感器,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。
信号处理模块6013用于处理手机从外部设备接收的信号以及向外部设备发送信号,外部设备例如可以是基站,其中,接收器6018用于接收外部设备发送的信号,并将该信号传输至信号处理器6021,发射器用于6019用于对信号处理器6021输出的信号进行发射。
前述图1A、图2或图3所示的实施例中,各步骤方法流程可以基于该手机的结构实现。
前述图4和图5所示的实施例中,各单元功能可以基于该手机的结构实现。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括移动终端。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括移动终端。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种图片分类方法,其特征在于,应用于电子装置,所述图片分类方法包括:
确定待分类的至少一张图片所适配的目标图片分类策略,所述目标图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为非基于文本信息识别的分类策略;
按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;
根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中;
其中,
所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括单张图片,所述单张图片包括多个被拍摄目标;所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别,包括:
识别所述每张图片中的被拍摄目标;
根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
2.根据权利要求1所述的方法,其特征在于,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括单张图片,所述单张图片包括单个被拍摄目标;所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别,包括:
识别所述每张图片中的被拍摄目标;
根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括多张图片,所述多张图片中的拍摄主体相同,且所述拍摄主体包括多个被拍摄目标;所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别,包括:
识别所述每张图片中的被拍摄目标;
根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据和动态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据,所述动态特征数据包括所述多张图片中同一被拍摄目标的第三特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
4.根据权利要求1所述的方法,其特征在于,所述目标图片分类策略为第一图片分类策略;所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别,包括:
根据多个灰度阈值对所述至少一张图片进行二值化处理,得到所述多个灰度阈值对应的黑白色区域,并根据所述灰度阈值和所述黑白色区域,获得所述至少一张图片的MSER;
根据所述MSER确定文本区域,对所述文本区域进行图片预处理和特征提取,获得文本区域对应的特征向量;
采用分类器对所述特征向量进行分类处理,获得所述文本区域的文字识别结果;
根据所述文字识别结果确定所述至少一张图片中每张图片所属的图片类别。
5.一种图片分类方法,其特征在于,应用于电子装置,所述图片分类方法包括:
确定待分类的至少一张图片所适配的目标图片分类策略,所述目标图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为非基于文本信息识别的分类策略;
按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;
根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中;
其中,
所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括多张图片,所述多张图片中的拍摄主体相同,且所述拍摄主体包括多个被拍摄目标;所述按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别,包括:
识别所述每张图片中的被拍摄目标;
根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据和动态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据,所述动态特征数据包括所述多张图片中同一被拍摄目标的第三特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
6.一种图片分类装置,其特征在于,所述图片分类装置包括分类策略确定单元、图片类别确定单元和图集划分单元,其中:
所述分类策略确定单元,用于确定待分类的至少一张图片所适配的目标图片分类策略,图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为基于特征提取和模型预测的分类策略;
所述图片类别确定单元,用于按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;
所述图集划分单元,用于根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中;
其中,
所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括单张图片,所述单张图片包括多个被拍摄目标;所述图片类别确定单元具体用于:
识别所述每张图片中的被拍摄目标;
据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
7.根据权利要求6所述的图片分类装置,其特征在于,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括单张图片,所述单张图片包括单个被拍摄目标;所述图片类别确定单元具体用于:
识别所述每张图片中的被拍摄目标;
据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
8.根据权利要求6-7任一项所述的图片分类装置,其特征在于,所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括多张图片,所述多张图片中的拍摄主体相同,且所述拍摄主体包括多个被拍摄目标;所述图片类别确定单元具体用于:
识别所述每张图片中的被拍摄目标;
根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据和动态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据,所述动态特征数据包括所述多张图片中同一被拍摄目标的第三特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
9.根据权利要求6所述的图片分类装置,其特征在于,所述目标图片分类策略为第一图片分类策略;所述图片类别确定单元具体用于:
根据多个灰度阈值对所述至少一张图片进行二值化处理,得到所述多个灰度阈值对应的黑白色区域,并根据所述灰度阈值和所述黑白色区域,获得所述图片的MSER;
根据所述MSER确定文本区域,对所述文本区域进行图片预处理和特征提取,获得文本区域对应的特征向量;
采用分类器对所述特征向量进行分类处理,获得所述文本区域的文字识别结果;
根据所述文字识别结果确定所述至少一张图片中每张图片所属的图片类别。
10.一种图片分类装置,其特征在于,所述图片分类装置包括分类策略确定单元、图片类别确定单元和图集划分单元,其中:
所述分类策略确定单元,用于确定待分类的至少一张图片所适配的目标图片分类策略,图片分类策略包括第一图片分类策略和第二图片分类策略,所述第一图片分类策略为基于文本信息识别的分类策略,所述第二图片分类策略为基于特征提取和模型预测的分类策略;
所述图片类别确定单元,用于按照所述目标图片分类策略确定所述至少一张图片中每张图片所属的图片类别;
所述图集划分单元,用于根据所述每张图片所属的图片类别将所述每张图片划分到对应的图集中;
其中,
所述目标图片分类策略为第二图片分类策略;所述至少一张图片包括多张图片,所述多张图片中的拍摄主体相同,且所述拍摄主体包括多个被拍摄目标;所述图片类别确定单元具体用于:
识别所述每张图片中的被拍摄目标;
根据所述被拍摄目标确定所述每张图片的特征数据,所述特征数据包括静态特征数据和动态特征数据,其中,所述静态特征数据包括单张图片中每个被拍摄目标的第一特征数据和多个被拍摄目标之间的第二特征数据,所述动态特征数据包括所述多张图片中同一被拍摄目标的第三特征数据;
针对所述每张图片,将所述每张图片的特征数据导入预训练的图片分类模型中,得到所述每张图片的分类结果;
根据所述每张图片的分类结果确定所述至少一张图片中每张图片所属的图片类别。
11.一种电子装置,其特征在于,包括处理器、存储器和通信接口,一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的方法的指令。
12.一种计算机可读存储介质,其特征在于,存储计算机程序,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。
CN201810327743.8A 2018-04-12 2018-04-12 图片分类方法及相关产品 Active CN110378330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810327743.8A CN110378330B (zh) 2018-04-12 2018-04-12 图片分类方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810327743.8A CN110378330B (zh) 2018-04-12 2018-04-12 图片分类方法及相关产品

Publications (2)

Publication Number Publication Date
CN110378330A CN110378330A (zh) 2019-10-25
CN110378330B true CN110378330B (zh) 2021-07-13

Family

ID=68243652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810327743.8A Active CN110378330B (zh) 2018-04-12 2018-04-12 图片分类方法及相关产品

Country Status (1)

Country Link
CN (1) CN110378330B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081740A (zh) * 2011-03-07 2011-06-01 中国科学院自动化研究所 一种基于尺度不变特征的三维图像分类方法
CN106156777A (zh) * 2015-04-23 2016-11-23 华中科技大学 文本图片检测方法及装置
CN106257496A (zh) * 2016-07-12 2016-12-28 华中科技大学 海量网络文本与非文本图像分类方法
CN106295627A (zh) * 2015-05-12 2017-01-04 阿里巴巴集团控股有限公司 用于识别文字牛皮癣图片的方法及装置
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146840A (ja) * 2016-02-18 2017-08-24 富士ゼロックス株式会社 画像処理装置およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081740A (zh) * 2011-03-07 2011-06-01 中国科学院自动化研究所 一种基于尺度不变特征的三维图像分类方法
CN106156777A (zh) * 2015-04-23 2016-11-23 华中科技大学 文本图片检测方法及装置
CN106295627A (zh) * 2015-05-12 2017-01-04 阿里巴巴集团控股有限公司 用于识别文字牛皮癣图片的方法及装置
CN106257496A (zh) * 2016-07-12 2016-12-28 华中科技大学 海量网络文本与非文本图像分类方法
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Audio-visual scene understanding utilizing text information for a cooking support robot;Ryosuke Kojima et al.;《2015 IEEERSJ International Conference on Intelligent Robots and Systems (IROS)》;20151217;4210-4215 *
互联网文本信息协助下的图像分类;林元;《万方》;20140522;1-76 *
最大概率方法与最近邻准则下的图像标注;张晓春;《中国优秀博士学位论文全文数据库 信息科技辑》;20150615;I138-25 *

Also Published As

Publication number Publication date
CN110378330A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN111368893B (zh) 图像识别方法、装置、电子设备及存储介质
US10140515B1 (en) Image recognition and classification techniques for selecting image and audio data
US8750573B2 (en) Hand gesture detection
US8792722B2 (en) Hand gesture detection
CN107633207B (zh) Au特征识别方法、装置及存储介质
CN110147805B (zh) 图像处理方法、装置、终端及存储介质
US11699213B2 (en) Image-capturing device and method for controlling same
CN109299315B (zh) 多媒体资源分类方法、装置、计算机设备及存储介质
US9436883B2 (en) Collaborative text detection and recognition
CN110163076B (zh) 一种图像数据处理方法和相关装置
US20220108454A1 (en) Segmentation for image effects
WO2019033569A1 (zh) 眼球动作分析方法、装置及存储介质
CN113395542B (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
WO2019033571A1 (zh) 面部特征点检测方法、装置及存储介质
CN103617432A (zh) 一种场景识别方法及装置
CN107766403B (zh) 一种相册处理方法、移动终端以及计算机可读存储介质
US11977981B2 (en) Device for automatically capturing photo or video about specific moment, and operation method thereof
US9715638B1 (en) Method and apparatus for identifying salient subimages within a panoramic image
WO2019033568A1 (zh) 嘴唇动作捕捉方法、装置及存储介质
US20180314909A1 (en) Detection and recognition of objects lacking textures
CN112200844A (zh) 生成图像的方法、装置、电子设备及介质
Lahiani et al. Hand pose estimation system based on Viola-Jones algorithm for android devices
KR101961462B1 (ko) 객체 인식 방법 및 장치
CN110110742B (zh) 多特征融合方法、装置、电子设备及存储介质
CN112131957A (zh) 文档类型图片的识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant