CN112069338A - 图片处理方法、装置、电子设备及存储介质 - Google Patents
图片处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112069338A CN112069338A CN202010917004.1A CN202010917004A CN112069338A CN 112069338 A CN112069338 A CN 112069338A CN 202010917004 A CN202010917004 A CN 202010917004A CN 112069338 A CN112069338 A CN 112069338A
- Authority
- CN
- China
- Prior art keywords
- picture
- category
- probability vector
- pictures
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 261
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000003062 neural network model Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图片处理方法、装置、电子设备及存储介质,该图片处理方法应用于电子设备,该图片处理方法包括:获取待处理的图片集;将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量;获取所述图片集中的每张图片的特征向量;将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量;基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。本方法可以实现准确对图片集所属的类别进行识别。
Description
技术领域
本申请涉及电子设备技术领域,更具体地,涉及一种图片方法、装置、电子设备及存储介质。
背景技术
电子设备,例如手机、平板电脑等,已经成为人们日常生活中最常用的消费型电子产品之一。随着科技水平的发展,移动终端通常会设置有摄像头,从而实现拍摄功能,使得人们可以越来越方便地使用电子设备进行拍,以记录生活中的美好瞬间,并且可以将拍摄的图片存储于相册中,以便用户进行查看。另外,电子设备还可以生成同一类别的图像集整理到一起,从而形成相册,但是对于形成的相册,用户无法准确了解这些相册所述对应的类型,例如相册对应的事件等类型,影响了用户查看图片时的效率。
发明内容
鉴于上述问题,本申请提出了一种图片方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种图片处理方法,应用于电子设备,所述方法包括:获取待处理的图片集;将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量;获取所述图片集中的每张图片的特征向量;将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量;基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
第二方面,本申请实施例提供了一种图片处理装置,所述装置包括:图片集获取模块、第一向量获取模块、第二向量获取模块、第三向量获取模块以及类别确定模块,其中,所述图片集获取模块用于获取待处理的图片集;所述第一向量获取模块用于将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量;所述第二向量获取模块用于获取所述图片集中的每张图片的特征向量;所述第三向量获取模块用于将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量;所述类别确定模块用于基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的图片处理方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的图片处理方法。
本申请提供的方案,通过获取待处理的图片集,将图片集中的每张图片输入至预先训练的类别识别模型,获得每张图片对应的第一类别概率向量,并且获取每张图片的特征向量,按照预设顺序将每张图片对应的特征向量输入至长期记忆模型,获得图片集对应的第二类别概率向量,然后基于第一类别概率向量以及第二类别概率向量,确定该图片集所属的类别,从而基于图片的视觉信息确定每张图片的第一类别概率向量,并且根据图片集中图片的时间信息确定图片集的第二类别概率向量,然后根据于第一类别概率向量以及第二类别概率向量,确定该图片集所属的类别,实现在确定图片集的类别时,参考了图片的视觉信息以及图片的时间信息,提升了图片集的类别识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请一个实施例的图片处理方法流程图。
图2示出了根据本申请另一个实施例的图片处理方法流程图。
图3示出了根据本申请又一个实施例的图片处理方法流程图。
图4示出了根据本申请一个实施例的图片处理装置的一种框图。
图5是本申请实施例的用于执行根据本申请实施例的图片处理方法的电子设备的框图。
图6是本申请实施例的用于保存或者携带实现根据本申请实施例的图片处理方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
当前,电子设备在日常生活使用中,普及率已近乎全民覆盖,其中,相机模块,已成为智能终端主要功能点,用户可通过电子设备的相机功能,拍摄照片,从而记录生活、学习、工作瞬间。电子设备可以将人们拍摄的图片进行保存,从而方便用户对拍摄的图片进行查看。
随着电子设备的性能的提升,现有的电子设备中存储了大量的个人图片数据。这些数据里面绝大部分都是跟用户相关的照片。如何有效的管理这些图片数据,开始引起了各种面向个人消费者的公司的重视,使得大量的利用新技术的相册管理软件涌现出来。
这些相册管理软件分别从不同角度来帮助用户智能和有效的管理自己的相册图集。其中,有一项非常重要的基础功能是相册类别的识别,例如相册事件识别,这项功能基于相关模型,对前端算法给定图组进行分析,自动识别出给定图组的事件类型,识别结果可以用于后续的推荐场景。例如,前端算法输出一组与聚餐或婚礼或者旅行等事件相关的图片。相册事件识别算法对同时整个图组进行分析,识别出该组图片的事件类型,从而用户可以在查看图组时,能够知晓图组的类别。但是目前的对于相册的类别识别的方案中,大部分采用人为设计的规则来完成,而人为设计的规则的考虑可能并不周全,导致对于相册类别的识别的准确性欠佳。
针对上述问题,发明人提出了本申请实施例提供的图片处理方法、装置、电子设备以及存储介质,实现在确定图片集的类别时,参考了图片的视觉信息以及图片的时间信息,提升了图片集的类别识别的准确性。其中,具体的图片处理方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请一个实施例提供的图片处理方法的流程示意图。在具体的实施例中,所述图片处理方法应用于如图4所示的图片处理装置400以及配置有所述图片处理装置400的电子设备100(图5)。下面将以电子设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备可以为智能手机、平板电脑、智能手表、笔记本电脑等,在此不做限定。下面将针对图1所示的流程进行详细的阐述,所述图片处理方法具体可以包括以下步骤:
步骤S110:获取待处理的图片集。
在本申请实施例中,电子设备可以获取待处理的图片集,以对待处理的图片集所属的类别进行确定。其中,待处理的图片集中的图片可以为一张,也可以为多张。如果待处理的图片集中包括一张图片,则只需要通过本申请实施例中的类别识别模型进行识别,确定该图片所属的类别作为该图片集所属的类别。本申请实施例主要以待处理的图片集中包括多张图片为例进行说明,其中图片集中具体的图片数量在本申请实施例中并不限定。
在一些实施方式中,图片集可以为电子设备检测用户的操作,并根据检测到的操作,确定出用户对包括多张图片的集合的选择操作时,将用户选择的图片集合作为以上图片集。其中,供用户进行选择图片集中,每个图片集中可以均包括属于一个类别的图片,从而可以使得用于选择的图片集能够被用于进行图片集的类别的识别。例如,电子设备可以根据图片的聚类算法,对图片进行聚类后,获得不同类别的图片集,这些图片集可以供用户进行选取;又例如,电子设备可以预先根据用户的操作,将同一类别的图片划分到同一集合中,并生成相册,生成的相册可以供用户进行选取进行相册所属的类别的确定。
当然,待处理的图片集的具体获取方式可以不作为限定。可以理解的是,由于需要对图片集所属的类别进行确定,因此图片集中的图片应当为属于同一类别的图片,从而后续识别的图片集所属的类别,可以作为图片集中每张图片所属的类别。
可选的,在本申请实施例中,图片集所属的类别可以是事件类别,一个事件类别的图像属于一个事件中的图像,例如,“婚礼”事件、“生日”事件、“毕业典礼”事件、“公司年会”事件等。
步骤S120:将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量。
在本申请实施例中,电子设备在获取到待处理的图片集之后,可以将图片集中每张图片输入至预先训练的类别识别模型,以获得每张图片对应的第一类别概率向量。其中,类别识别模型被预先训练,从而可以根据输入的图片而输出不同类别的概率,这些不同类别的概率以概率向量的形式进行输出。例如,假如类别识别模型可以识别图片属于类别A、类别B、类别C、类别D以及类别E的概率,则其输出的概率向量(x,y,z,j,k)中,x对应类别A的概率,y对应类别B的概率,z对应类别C的概率,j对应类别D的概率,k对应类别E的概率。
在一些实施方式中,在对类别识别模型进行训练时,可以以标注有类别标签的图片作为训练样本,每个训练样本标注一个或多个类别标签,多个训练样本分别标注对应的类别标签。将训练样本输入初始的神经网络模型,初始的神经网络模型输出不同类别标签的概率。若神经网络模型输出的不同类别标签的概率与训练样本本身标注的类别标签所对应的真实概率不同,则对神经网络模型的参数进行调整,使神经网络模型输出的概率向训练样本标注的类别标签所对应的真实概率靠近。多次进行以上的过程,使神经网络模型的参数不断调整,直至神经网络模型输出的概率与真实概率的差值小于预设差值。通过多个训练样本对神经网络模型进行训练,调整神经网络模型的参数,直至神经网络模型的输出结果的准确率达到预设准确率,从而可以获得可以用于对图片进行类别的识别的类别识别模型。其中,神经网络模型输入第一数量的训练样本,输出的概率准确的样本数量为第二数量,第二数量占第一数量的比例表示类别识别模型的准确率。
当然,具体的类别识别模型可以不作为限定。
在本申请实施例中,在将待处理的图片集中每张图片输入至预先训练的类别识别模型之后,则可以获得每张图片对应的第一类别概率向量。其中,电子设备在将图片集中的图片输入至类别识别模型时,图片输入至类别识别模型的先后顺序可以不做限定,例如,可以按照不同图片所占的文件大小,按照图片的文件大小,对图片集中的图片进行排序,使得排序结果中不同文件大小的图片能够均匀分布,从而在按照该排序依次将图片输入至类别识别模型时,在整个过程中,类别识别模型需要处理的图片的文件大小分别均匀,使得整个过程中不会出现某一时间段处理量较大,而引起电子设备资源紧张的情况发生。
可以理解地,在利用类别识别模型识别各张图片对应的事件概率时,主要是根据图片中的视觉信息,即图片的内容、风格等特征对事件进行识别,也可以理解为,类别识别模型在提取图片的图像特征之后,根据图像特征输出概率向量。
步骤S130:获取所述图片集中的每张图片的特征向量。
在本申请实施例中,电子设备还可以获取待处理的图片集中每张图片的特征向量,以便后续通过长短期记忆模型,对整个图像集对应的类别概率进行确定。
在一些实施方式中,电子设备可以通过预先训练的特征提取模型提取每张图片的特征向量。特征提取模型可以为神经网络,例如,电子设备为电脑时,可选取AlexNet、VGGNet、Google Inception Net和ResNet等神经网络,电子设备为手机等移动终端时,可以选取Mobilenet等神经网络。其中,整个AlexNet有8个需要训练参数的层(不包括池化层和LRN层),前5层为卷积层,后3层为全连接层。AlexNet最后一层是有1000类输出的Softmax层用作分类。LRN层出现在第1个及第2个卷积层后,而最大池化层出现在两个LRN层及最后一个卷积层后;VGGNet探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。VGGNet相比之前state-of-the-art的网络结构,错误率大幅下降,由于imageNet中预训练的VGGNet已经有很强的特征提取能力,因此不需要重新训练,基于imageNet中预训练的卷积神经网络即可对上述特征进行提取,该网络还通过对卷积的分解来进一步降低计算量。例如一层5x5卷积可以用两层3x3卷积替代,而一层3x3卷积又可以用一层1x3卷积和3x1卷积替代,大大减小计算量。ResNet可以解决卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题,通过残差结构,直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。
另外,在ResNet基础上,还可以使用SE-Net,SE-Ne引入了注意力机制。SENet的核心思想在于通过网络根据loss去学习特征权重,使得有效的feature map权重大,无效或效果小的feature map权重小的方式训练模型达到更好的结果。
当然,在本申请实施例中,具体获取特征向量的方式可以不做限定。
步骤S140:将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量。
在本申请实施例中,电子设备在获取到每张图片的特征向量之后,可以将每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型(LSTM,Long Short-Term Memory),以获得长短期记忆模型输出的类别概率向量,并将该类别概率向量作为待处理的图片集对应的第二类别概率向量。由于LSTM模型对具有时序性相关的问题的处理具有较好的效果,且在对图像集对应的类别进行识别时,例如不同事件类别进行识别,由于这些类别的图片记录明显具有时间顺序,因此利用LSTM模型对图片集对应的类别进行识别能够利用图片集中图片的时间顺序进行识别,从而参考图片集中图片的时间信息,使得后续确定的所属类别较为准确。
在一些实施方式中,LSTM模型可以被预先训练,从而获得预先训练的LSTM模型。其中,LSTM模型的训练,可以参阅前述对类别识别模型的训练,与类别识别模型的训练不同的是,LSTM模型的训练样本可以为被标注有类别标签的图像集,通过将图像集按照预设顺序输入LSTM模型,获得输出结果后,再将输出结果与标识的类别标签对应的真实结果进行比较,然后根据比较结果调整LSTM模型的参数,直至LSTM模型根据输入的图像集中的图片而输出的输出结果与真实结果对应的差异小于预设差异,从而获得预先训练的LSTM模型。其中,LSTM模型在处理按顺序输入的图片时,将输入的上一张图片对应的输出以及当前输入的图片作为输入,输入到LSTM模型,不断重复,在将最后一张图片输入到LSTM模型之后,LSTM模式输出的结果即为图片集所对应的第二类别概率向量。
可选地,LSTM模型输出的概率向量中各个概率所对应的类别,可以与以上类别识别模型中各个概率对应的类别对应,从而后续电子设备可以根据获得的第一概率向量以及第二概率向量,进行图片集所属类别的确定。
需要说明的是,电子设备获取每张图片对应的第一类别概率向量,与获取图片集对应的第二类别概率向量的过程之间的顺序可以不作为限定,也就是说,步骤S120可以在步骤S130以及步骤S140之前,步骤S120也可以在步骤S130以及步骤S140之后。
步骤S150:基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
在本申请实施例中,电子设备在获取到每张图片对应的第一类别概率向量,以及图片集对应的第二类别概率向量之后,则可以根据每张图片对应的第一类别概率向量,以及第二类别概率向量,对图片集所属的类别进行确定。其中,电子设备可以融合每张图片对应的第一类别概率向量,以及第二类别概率向量中的概率信息,得到图像集属于不同类别的概率。
在一些实施方式中,类别识别模型与LSTM模型输出的概率向量中每个位置的概率值对应的类别相同。例如,类别识别模型输出的每个第一概率向量为(x,y),LSTM模型输出的第二概率向量为(z,i),则x对应的类别与z对应的类别相同,y对应的类别与i对应的类别相同。
作为一种实施方式,电子设备可以将每张图片对应的第一类别概率向量分分别与第二类别概率向量,按照相同位置处的概率值进行融合,获得多个第五类别概率向量;然后获取多个第五类别概率向量中同一位置处的概率值的平均值,得到多个平均值构成的第六类别概率向量;基于第六类别概率向量中的最大概率所对应的类别,确定图片集所属的类别。
其中,图片集中所有图片对应的第一概率向量可以构成向量矩阵,该向量矩阵中,每个行对应一张图片对应的第一概率向量。将矩阵中每行的数据与第二类别概率向量中相同位置处(即相同元素)的概率值进行点乘或者相加,即对每个第一类别概率向量与第二类别概率向量进行每个类别概率的融合,得到融合后的每个类别的概率,每张图片对应的融合后的多个类别的概率可以形成第无概率向量。然后再对多个第五概率向量中同一位置处(相同元素)的概率值求取平均值,可以得到各个位置处的平均值,多个位置处的平均值可以形成第六类别概率向量,也就是说,根据多张图片对应的融合后的多个类别的概率所形成的第五类别概率向量,求取每个类别的概率的平均值,获得的多个类别概率的平均值可以构成第六类别概率向量。因此,第六类别概率向量包含了各个类别的概率,根据第六类别概率向量确定最大概率所对应的类别,获得的该类别即可作为待处理的图片集所属的类别。
作为另一种实施方式,电子设备针对待处理的图片集中每张图片对应的第一类别概率向量,可以针对每个类别的概率求取平均值,也就是说,针对各个第一类别概率向量中相同位置处的数据,求取平均值,可以获得将多张图片的第一类别概率向量进行融合为一个类别概率向量;然后再将该类别概率向量与第二类别概率向量进行融合,例如,按照类别概率向量中相同位置的数据进行点乘、相加、求平均值等,可以获得融合后的最终概率向量;最后,根据最终概率向量确定最大概率所对应的类别,获得的该类别即可作为待处理的图片集所属的类别。
在以上的实施方式中,在对类别概率向量进行融合的过程中,类别概率向量中各个位置所对应的类别不发生变化,也就是说,各个位置融合后的数据在融合后的概率向量中的位置,与融合前的概率向量中的位置相同,从而可以便于电子设备分辨各个概率值所对应的类别。
当然,具体根据第一类别概率向量以及第二类别概率向量确定图片集所属的类别的方式可以不作为限定。
本申请实施例提供的图片处理方法,通过获取待处理的图片集,将图片集中的每张图片输入至预先训练的类别识别模型,获得每张图片对应的第一类别概率向量,并且获取每张图片的特征向量,按照预设顺序将每张图片对应的特征向量输入至长期记忆模型,获得图片集对应的第二类别概率向量,然后基于第一类别概率向量以及第二类别概率向量,确定该图片集所属的类别,从而基于图片的视觉信息确定每张图片的第一类别概率向量,并且根据图片集中图片的时间信息确定图片集的第二类别概率向量,然后根据于第一类别概率向量以及第二类别概率向量,确定该图片集所属的类别。由于确定每张图片对应的第一类别概率向量,是根据图片的视觉信息进行识别,而图片集对应的第二类别概率向量,参考图片集中图片的时序信息,通过LSTM模型进行识别,因此根据第一类别概率向量以及第二类别概率向量,确定图片集所属的类别,可以同时参考图片的视觉信息,以及图片集中图片的时序信息,从而使得图片集所属类别的识别较为准确。
请参阅图2,图2示出了本申请另一个实施例提供的图片处理方法的流程示意图。该图片处理方法应用于上述电子设备,下面将针对图2所示的流程进行详细的阐述,所述图片处理方法具体可以包括以下步骤:
步骤S210:获取待处理的图片集。
在本申请实施例中,步骤S210可以参阅前述实施例的内容,在此不再赘述。
步骤S220:将所述图片集中每张图片输入至所述类别识别模型中的第一网络以及第二网络。
在本申请实施例中,类别识别模型为孪生网络模型,孪生网络模型包括第一网络以及第二网络,第一网络与第二网络的结构和参数相同,并且第一网络与第二网络共享权值。第一网络以及第二网络可以为神经网络。孪生差值网络可以根据大量被标注有类别标签的图片训练得到,由于孪生网络模型需要成对的输入,实际应用时,将每张图片同时输入到第一网络以及第二网络,因此可以有数据增强的效果,提升类别识别模型的鲁棒性。
在一些实施方式中,孪生网络模型可以通过以下方式训练得到:将第一样本图片输入至所述第一网络,获得第三类别概率向量,以及将第二样本图片输入至所述第二网络,获得第四类别概率向量;根据所述第三类别概率向量、所述第四类别概率向量、所述第一样本图片对应的第一真实概率向量以及所述第二样本图片的第二类别概率向量,确定所述孪生网络模型的总损失函数的值;根据所述总损失函数的值,对所述孪生网络模型进行迭代训练,获得训练后的孪生网络模型,作为所述类别识别模型。
其中,可以理解地,在训练时,将两张样本图片作为一组数据,分别输入到孪生网络模型的第一网络和第二网络,其中,每张图片输入到一个网络中。然后根据第一网络的输出结果以及输入的图片的真实结果,第二网络的输出结果以及输入的图片的真实结果,即可确定出总损失函数的值,然后根据计算的损失函数的值,调整孪生网络模型中用于两个网络的参数,通过不断根据损失值和梯度下降法,不断的迭代更新网络参数,在最终满足迭代终止条件时,获得训练完成的孪生网络模型。获得的孪生网络模型中,由于损失值在迭代过程中不断变小,因此最终满足预设的迭代终止条件时获得的孪生网络模型,能够准确地识别输入的图片对应的类别概率向量。其中,梯度下降法(gradient descent)是一个最优化算法,通常也称为最速下降法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。
其中,迭代终止条件可以包括:损失函数的值最小、损失函数的值小于预设值、或者迭代次数达到预设次数等。
在一些实施方式中,根据所述第三类别概率向量、所述第四类别概率向量、所述第一样本图片对应的第一真实概率向量以及所述第二样本图片的第二类别概率向量,确定所述孪生网络模型的总损失函数的值,包括:
根据所述第三类别概率向量与第四类别概率向量之间的差异,确定第一损失函数的值;
根据所述第一真实概率向量与第二类别概率向量之间的差异,确定第二损失函数的值;
根据所述第一损失函数的值,以及所述第二损失函数的值,确定所述孪生网络模型的总损失函数的值。
具体地,总损失函数的计算按照以下公式计算:
其中,Dg=G(Ii)-G(Ij),DP=P(Ii)-P(Ij),P(Ii)是第一网络根据图像Ii输出的概率向量,G(Ii)是图像Ii对应的真实概率向量,P(Ij)是第二网络根据图像Ij输出的概率向量,G(Ij)是图像Ii对应的真实概率向量。并且,ms是预定义的输入的两张图片相似的边界差值,md预定义的输入的两张图片相异的边界差值,也就是说,如果两张图片对应的真实概率向量的差值小于ms,表示两张图片相似;如果两张图片对应的真实概率向量的差值处于ms与md之间,表示两张图片既不相同也不相异;如果两张图片对应的真实概率向量的差值大于md,表示两张图片相异。按照如此方式,参照输入的两张图片之间的差异,从而可以确定出孪生网络模型的总损失函数的值。
在一些实施方式中,预先训练的孪生网络模型可以存储于电子设备本地,电子设备在需要获取图片集中图片对应的第一类别概率向量时,可以从本地调用孪生网络模型,从而提升获取图片对应的第一类别概率向量的效率;预先训练的孪生网络模型可以存储于服务器,电子设备可以通过将图片发送至服务器,从而从服务器获得返回的第一类别概率向量,这样的话,当孪生网络模型较大,而电子设备为移动终端时,可以有效节省电子设备的存储空间,以及节约电子设备的运行资源。
当然,本申请实施例提供的图片处理方法中,其他模型(例如后续步骤中提取特征向量的模型、LSTM模型等)也可以按照以上方式存储在电子设备本地,或者存储在服务器。
步骤S230:获取所述第一网络输出的类别概率向量或者所述第二网络输出的类别概率向量,作为所述第一类别概率向量。
在本申请实施例中,由于在针对每张图片输入到类别识别模型时,是将该图片同时输入到以上孪生网络模型中的第一网络以及第二网络,并且孪生网络模型中第一网络与第二网络的结构、参数、权值相同,因此,第一网络以及第二网络针对该图片的输出结果应当相同,可以取任一网络输出的类别概率向量,作为该图片对应的第一类别概率向量。
步骤S240:获取所述每张图片的时间信息。
在本申请实施例中,电子设备在按照预设顺序将每张图片输入至LSTM模型之前,还可以确定该预设顺序。由于在记录不同类型的图片集,特别是记录不同事件的图片时,图片的拍摄是有时间顺序的,因此可以获取每张图片的时间信息,基于此,来确定图片的时序。
在一些实施方式中,电子设备可以获取每张图片的拍摄时间,并将每张图片的拍摄时间确定为每张图片的时间信息。可以理解地,电子设备拍摄图片时会记录其拍摄时间,因此可以基于此来确定图片的时间信息,并确定图片集中图片的时序。
步骤S250:根据所述每张图片的时间信息的先后顺序,确定所述预设顺序。
在本申请实施例中,在确定出每张图片的时间信息之后,则可以根据每张图片的时间信息的先后顺序,确定出图片输入到LSTM模型时的预设顺序。其中,电子设备可以根据每张图片的时间信息,按照时间从先到后的顺序,对图片集中的图片进行排序,从而获得预设顺序。
步骤S260:将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量。
步骤S270:基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
在本申请实施例中,步骤S260以及步骤S270可以参阅前述实施例的内容,在此不再赘述。
本申请实施例提供的图片处理方法,由于确定每张图片对应的第一类别概率向量,是根据图片的视觉信息进行识别,而图片集对应的第二类别概率向量,参考图片集中图片的时序信息,通过LSTM模型进行识别,因此根据第一类别概率向量以及第二类别概率向量,确定图片集所属的类别,可以同时参考图片的视觉信息,以及图片集中图片的时序信息,从而使得图片集所属类别的识别较为准确。另外,利用孪生网络模型来获取每张图片对应的第一类别概率向量,由于孪生网络模型需要成对的输入,也就是将每张图片同时输入到第一网络以及第二网络,实因此可以有数据增强的效果,提升类别识别模型的鲁棒性,进而提升获取到的每张图片对应的第一类别概率向量的准确性。
请参阅图3,图3示出了本申请又一个实施例提供的图片处理方法的流程示意图。该图片处理方法应用于上述电子设备,下面将针对图3所示的流程进行详细的阐述,所述图片处理方法具体可以包括以下步骤:
步骤S310:响应针对目标主题相册的选取操作,获取所述目标主题相册中的图片。
在本申请实施例中,电子设备中可以预先存储有多个主题相册,这些主题相册为电子设备预先根据主题相册的生成方法形成的相册,或者,根据用户对同一类别的图片进行划分后形成的相册。
在一些实施方式中,电子设备可以预先对指定图片进行聚类,获得聚类结果,然后根据所述聚类结果中属于同一类别的图片生成至少一个主题相册,所述至少一个主题相册包括所述目标主题相册。
其中,对指定图片进行聚类,从而可以获得聚类后属于同一类别的图片,将属于同一类别的图像作为一个类别的聚类结果,从而获得至少一个类别的聚类结果。具体在聚类时,可以根据不同类别的图片的特征,例如拍摄图片时的环境信息等,对图片进行聚类。聚类算法可以为HDBSCAN算法、K-Means算法、MeanShift算法等,在此不做限定。
步骤S320:在所述目标主题相册中的图片的数量大于指定数量时,根据所述目标主题相册中不同图片的历史操作数据,生成不同图片的重要性得分。
在本申请实施例中,在需要对目标主题相册所属的类别进行确定时,如果目标主题相册中的图片数量过多,则会造成后续处理量较大。因此,在执行后续类别的确定过程之前,还可以确定目标主题相册中的图片的数量,然后将图片的数量与指定数量进行比较;根据比较结果,确定出图片的数量大于指定数量时,可以筛选出指定数量的图片,作为待处理的图片集,以对目标主题相册所属的类别进行确定;根据比较结果,确定出图片的数量小于或等于指定数量时,则可以直接将目标主题相册中的图片作为待处理的图片集。其中,指定数量的具体数值可以不作为限定,例如,可以为5,也可以为10等。
在一些实施方式中,电子设备可以根据目标主题相册中不同图片的历史操作数据,生成不同图片的重要性得分。其中,历史操作数据可以包括:将图片标记为喜欢的次数、对图片进行分享的分享次数、对图片进行编辑的编辑次数以及对图片的查看时长。其中,每张图片可以被用户标记为喜欢,电子设备并且可以记录每张图片被用户标记为喜欢的次数;电子设备也可以响应用户的操作,对图片进行分享,例如分享至其他设备,又例如,分享至社交平台等,电子设备可以对每张图片的分享次数进行记录;电子设备也可以响应对图片的编辑操作,对图片进行编辑,例如,进行美化处理等,并且电子设备可以记录对图片进行编辑的编辑次数;电子设备也可以在用户查看图片时,记录用户对图片的查看时长。可以理解地,将图片标记为喜欢的次数、对图片进行分享的分享次数、对图片进行编辑的编辑次数以及对图片的查看时长等历史操作数据,均能够反映用户对图片的重视程度、喜好程度等,因此能够体现图片的重要性,后续可以根据这些历史操作数据,来生成图片的重要性得分,进而根据图片的重要性得分对图片进行排序后,能够实现根据图片的重要性对图片进行排序。当然,具体地历史操作记录并不局限于上述的内容,例如,历史操作数据也还可以包括对图片的查看次数等。可以理解地,图片的历史操作数据可以体现用户对该图片的重视程度,也就是说,能体现该图片的重要性。
电子设备可以根据图片的历史操作数据,生成图片的重要性得分时,如果在历史操作记录包括多项的记录时,可以将每项的记录进行量化后,进行归一化处理;然后再根据每项记录的权重,以及每项记录对应的归一化数据,进行加权求和,获得图片的重要性得分。
步骤S330:根据所述重要性得分,从所述目标主题相册中的图片中,获取重要性得分满足预设得分条件的所述指定数量的图片,将所述指定数量的图片构成的图片集合作为待处理的图片集。
在本申请实施例中,电子设备在获取到目标主题相册中的图片中的重要性得分之后,则可以根据图片的重要性得分,则可以根据图片的重要性得分,从目标主题相册中的图片中筛选指定数量的图片作为待处理的图像集,从而减少后续处理过程中的处理量。
在一些实施方式中,电子设备可以根据图片的重要性得分,按照重要性得分从高到低的顺序,对图集中的图片进行排序,然后根据排序结果,从而排序结果中获取前指定数量的图片,作为待处理的图片集。当然,预设得分条件也可以为其他,例如,重要性得分大于指定得分等。
步骤S340:获取待处理的图片集。
步骤S350:将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量。
步骤S360:获取所述图片集中的每张图片的特征向量。
步骤S370:将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量。
步骤S380:基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
在本申请实施例中,步骤S340至步骤S380可以参阅前述实施例的内容,在此不再赘述。
在本申请实施例中,电子设备确定出的图片集所属的类别,即可以作为目标主题相册的类别,例如“婚礼”“生日”等。在确定出目标主题相册的类别之后,则电子设备可以对目标主题相册添加类别的标签,从而方便用户查看相册时,能够知晓其类别。
在一些实施方式中,电子设备在确定出待处理的图集所属的类别之后,还可以根据确定出的类别,从图片集中选取出与该类别的相关度最高的图片,作为封面图片;然后根据封面图片,生成图集的封面,进一步方便用户在查看图集时能够知晓该图集的类别。其中,电子设备在计算图集中的图片与图集所属的类别的相关度时,可以根据图片中包含的该类别的内容特征的数量确定,如果包含的该类别的内容特征的数量越多,则相关度也越高。例如,对应婚礼类别,婚礼类别的图片会包含:“白婚纱”、“新娘”、“大厅”、“美食”、“教堂”等内容特征,可以基于此,确定婚礼类别的图集中的图片所包含这些内容特征的数量,然后根据确定出的数量占内容特征的总数量的比例,将确定出的比例作为相关度。
在以上实施方式中,当存在相关度最高的图片的数量为多张时,还可以根据图片的重要性得分,来从这多张图片中选取重要性得分最高的图片,作为封面图片。其中,重要性的得分可以参考前述的内容。通过以上方式,可以从图片集中确定出与类别较为相关的图片作为封面图片,方便用户在查看图集时能够知晓该图集的类别。
本申请实施例提供的图片处理方法,通过根据用户对主题相册的选取操作,确定选取的目标主体相册的图片的数量,在图片的数量大于指定数量时,通过计算重要性得分,筛选出指定数量的图片作为待处理的图片集,从而可以减少电子设备的计算量。在确定图片集所属的类别时,由于确定每张图片对应的第一类别概率向量,是根据图片的视觉信息进行识别,而图片集对应的第二类别概率向量,参考图片集中图片的时序信息,通过LSTM模型进行识别,因此根据第一类别概率向量以及第二类别概率向量,确定图片集所属的类别,可以同时参考图片的视觉信息,以及图片集中图片的时序信息,从而使得图片集所属类别的识别较为准确。
请参阅图4,其示出了本申请实施例提供的一种图片处理装置400的结构框图。该图片处理装置400应用上述的电子设备,该图片处理装置400包括:图片集获取模块410、第一向量获取模块420、第二向量获取模块430、第三向量获取模块440以及类别确定模块450。其中,所述图片集获取模块410用于获取待处理的图片集;所述第一向量获取模块420用于将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量;所述第二向量获取模块430用于获取所述图片集中的每张图片的特征向量;所述第三向量获取模块440用于将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量;所述类别确定模块450用于基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
在一些实施方式中,该图片处理装置400还可以包括:时间信息获取模块以及顺序确定模块。时间信息获取模块用于在所述将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量之前,获取所述每张图片的时间信息;顺序确定模块用于根据所述每张图片的时间信息的先后顺序,确定所述预设顺序。
在该实施方式中,时间信息获取模块可以具体用于:获取所述每张图片的拍摄时间;将所述每张图片的拍摄时间确定为所述每张图片的时间信息。
在一些实施方式中,所述类别识别模型为孪生网络模型,所述孪生网络模型包括第一网络以及第二网络。该图片处理装置400还可以包括:第四向量获取模块、损失获取模块以及迭代训练模块。第四向量获取模块用于将第一样本图片输入至所述第一网络,获得第三类别概率向量,以及将第二样本图片输入至所述第二网络,获得第四类别概率向量;损失获取模块用于根据所述第三类别概率向量、所述第四类别概率向量、所述第一样本图片对应的第一真实概率向量以及所述第二样本图片的第二类别概率向量,确定所述孪生网络模型的总损失函数的值;迭代训练模块用于根据所述总损失函数的值,对所述孪生网络模型进行迭代训练,获得训练后的孪生网络模型,作为所述类别识别模型。
在该实施方式中,损失获取模块可以具体用于:根据所述第三类别概率向量与第四类别概率向量之间的差异,确定第一损失函数的值;根据所述第一真实概率向量与第二类别概率向量之间的差异,确定第二损失函数的值;根据所述第一损失函数的值,以及所述第二损失函数的值,确定所述孪生网络模型的总损失函数的值。
在该实施方式中,第一向量获取模块420可以具体用于:将所述图片集中每张图片输入至所述第一网络以及所述第二网络;获取所述第一网络输出的类别概率向量或者所述第二网络输出的类别概率向量,作为所述第一类别概率向量。
在一些实施方式中,类别确定模块450可以具体用于:将所述每张图片对应的第一类别概率向量分分别与所述第二类别概率向量,按照相同位置处的概率值进行融合,获得多个第三类别概率向量;获取所述多个第三类别概率向量中同一位置处的概率值的平均值,得到多个所述平均值构成的第四类别概率向量;基于所述第四类别概率向量中的最大概率所对应的类别,确定所述图片集所属的类别。
在一些实施方式中,图片集获取模块410可以具体用于:响应针对目标主题相册的选取操作,获取所述目标主题相册中的图片;在所述目标主题相册中的图片的数量大于指定数量时,根据所述目标主题相册中不同图片的历史操作数据,生成不同图片的重要性得分;根据所述重要性得分,从所述目标主题相册中的图片中,获取重要性得分满足预设得分条件的所述指定数量的图片,将所述指定数量的图片构成的图片集合作为待处理的图片集。
在一些实施方式中,图片处理装置400还可以包括聚类模块以及相册生成模块。聚类模块用于在所述响应针对目标主题相册的选取操作,获取所述目标主题相册中的图片之前,对指定图片进行聚类,获得聚类结果;相册生成模块用于根据所述聚类结果中属于同一类别的图片生成至少一个主题相册,所述至少一个主题相册包括所述目标主题相册。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请提供的方案,通过获取待处理的图片集,将图片集中的每张图片输入至预先训练的类别识别模型,获得每张图片对应的第一类别概率向量,并且获取每张图片的特征向量,按照预设顺序将每张图片对应的特征向量输入至长期记忆模型,获得图片集对应的第二类别概率向量,然后基于第一类别概率向量以及第二类别概率向量,确定该图片集所属的类别,从而基于图片的视觉信息确定每张图片的第一类别概率向量,并且根据图片集中图片的时间信息确定图片集的第二类别概率向量,然后根据于第一类别概率向量以及第二类别概率向量,确定该图片集所属的类别,实现在确定图片集的类别时,参考了图片的视觉信息以及图片的时间信息,提升了图片集的类别识别的准确性。
请参考图5,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、智能手表、笔记本电脑等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图6,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (12)
1.一种图片处理方法,其特征在于,应用于电子设备,所述方法包括:
获取待处理的图片集;
将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量;
获取所述图片集中的每张图片的特征向量;
将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量;
基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
2.根据权利要求1所述的方法,其特征在于,在所述将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量之前,所述方法还包括:
获取所述每张图片的时间信息;
根据所述每张图片的时间信息的先后顺序,确定所述预设顺序。
3.根据权利要求2所述的方法,其特征在于,所述获取所述每张图片的时间信息,包括:
获取所述每张图片的拍摄时间;
将所述每张图片的拍摄时间确定为所述每张图片的时间信息。
4.根据权利要求1所述的方法,其特征在于,所述类别识别模型为孪生网络模型,所述孪生网络模型包括第一网络以及第二网络,在所述将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量之前,所述方法还包括:
将第一样本图片输入至所述第一网络,获得第三类别概率向量,以及将第二样本图片输入至所述第二网络,获得第四类别概率向量;
根据所述第三类别概率向量、所述第四类别概率向量、所述第一样本图片对应的第一真实概率向量以及所述第二样本图片的第二类别概率向量,确定所述孪生网络模型的总损失函数的值;
根据所述总损失函数的值,对所述孪生网络模型进行迭代训练,获得训练后的孪生网络模型,作为所述类别识别模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三类别概率向量、所述第四类别概率向量、所述第一样本图片对应的第一真实概率向量以及所述第二样本图片的第二类别概率向量,确定所述孪生网络模型的总损失函数的值,包括:
根据所述第三类别概率向量与第四类别概率向量之间的差异,确定第一损失函数的值;
根据所述第一真实概率向量与第二类别概率向量之间的差异,确定第二损失函数的值;
根据所述第一损失函数的值,以及所述第二损失函数的值,确定所述孪生网络模型的总损失函数的值。
6.根据权利要求4所述的方法,其特征在于,所述将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量,包括:
将所述图片集中每张图片输入至所述第一网络以及所述第二网络;
获取所述第一网络输出的类别概率向量或者所述第二网络输出的类别概率向量,作为所述第一类别概率向量。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别,包括:
将所述每张图片对应的第一类别概率向量分分别与所述第二类别概率向量,按照相同位置处的概率值进行融合,获得多个第五类别概率向量;
获取所述多个第三类别概率向量中同一位置处的概率值的平均值,得到多个所述平均值构成的第六类别概率向量;
基于所述第六类别概率向量中的最大概率所对应的类别,确定所述图片集所属的类别。
8.根据权利要求1所述的方法,其特征在于,所述获取待处理的图片集,包括:
响应针对目标主题相册的选取操作,获取所述目标主题相册中的图片;
在所述目标主题相册中的图片的数量大于指定数量时,根据所述目标主题相册中不同图片的历史操作数据,生成不同图片的重要性得分;
根据所述重要性得分,从所述目标主题相册中的图片中,获取重要性得分满足预设得分条件的所述指定数量的图片,将所述指定数量的图片构成的图片集合作为待处理的图片集。
9.根据权利要求8所述的方法,其特征在于,在所述响应针对目标主题相册的选取操作,获取所述目标主题相册中的图片之前,所述方法还包括:
对指定图片进行聚类,获得聚类结果;
根据所述聚类结果中属于同一类别的图片生成至少一个主题相册,所述至少一个主题相册包括所述目标主题相册。
10.一种图片处理装置,其特征在于,所述装置包括:图片集获取模块、第一向量获取模块、第二向量获取模块、第三向量获取模块以及类别确定模块,其中,
所述图片集获取模块用于获取待处理的图片集;
所述第一向量获取模块用于将所述图片集中每张图片输入至预先训练的类别识别模型,获得所述每张图片对应的第一类别概率向量;
所述第二向量获取模块用于获取所述图片集中的每张图片的特征向量;
所述第三向量获取模块用于将所述每张图片的特征向量按照预设顺序依次输入至预先训练的长短期记忆模型,得到所述图片集对应的第二类别概率向量;
所述类别确定模块用于基于所述第一类别概率向量,以及所述第二类别概率向量,确定所述图片集所属的类别。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-9任一项所述的方法。
12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010917004.1A CN112069338A (zh) | 2020-09-03 | 2020-09-03 | 图片处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010917004.1A CN112069338A (zh) | 2020-09-03 | 2020-09-03 | 图片处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112069338A true CN112069338A (zh) | 2020-12-11 |
Family
ID=73666408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010917004.1A Pending CN112069338A (zh) | 2020-09-03 | 2020-09-03 | 图片处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069338A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650870A (zh) * | 2020-12-30 | 2021-04-13 | 北京天广汇通科技有限公司 | 一种训练图片排序模型的方法、图片排序的方法以及装置 |
CN113177131A (zh) * | 2021-04-09 | 2021-07-27 | 深圳时空引力科技有限公司 | 图片处理的方法、装置以及存储介质 |
CN117292174A (zh) * | 2023-09-06 | 2023-12-26 | 中化现代农业有限公司 | 苹果病害识别方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423756A (zh) * | 2017-07-05 | 2017-12-01 | 武汉科恩斯医疗科技有限公司 | 基于深度卷积神经网络结合长短期记忆模型的核磁共振图像序列分类方法 |
CN109344884A (zh) * | 2018-09-14 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 媒体信息分类方法、训练图片分类模型的方法及装置 |
CN110337646A (zh) * | 2017-02-25 | 2019-10-15 | 华为技术有限公司 | 一种生成相册的方法、装置和移动终端 |
CN110348477A (zh) * | 2019-06-04 | 2019-10-18 | 上海联影智能医疗科技有限公司 | 医疗图像处理方法、存储介质及计算机设备 |
CN111209423A (zh) * | 2020-01-07 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种基于电子相册的图像管理方法、装置以及存储介质 |
-
2020
- 2020-09-03 CN CN202010917004.1A patent/CN112069338A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110337646A (zh) * | 2017-02-25 | 2019-10-15 | 华为技术有限公司 | 一种生成相册的方法、装置和移动终端 |
CN107423756A (zh) * | 2017-07-05 | 2017-12-01 | 武汉科恩斯医疗科技有限公司 | 基于深度卷积神经网络结合长短期记忆模型的核磁共振图像序列分类方法 |
CN109344884A (zh) * | 2018-09-14 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 媒体信息分类方法、训练图片分类模型的方法及装置 |
CN110348477A (zh) * | 2019-06-04 | 2019-10-18 | 上海联影智能医疗科技有限公司 | 医疗图像处理方法、存储介质及计算机设备 |
CN111209423A (zh) * | 2020-01-07 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种基于电子相册的图像管理方法、装置以及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650870A (zh) * | 2020-12-30 | 2021-04-13 | 北京天广汇通科技有限公司 | 一种训练图片排序模型的方法、图片排序的方法以及装置 |
CN113177131A (zh) * | 2021-04-09 | 2021-07-27 | 深圳时空引力科技有限公司 | 图片处理的方法、装置以及存储介质 |
CN117292174A (zh) * | 2023-09-06 | 2023-12-26 | 中化现代农业有限公司 | 苹果病害识别方法、装置、电子设备和存储介质 |
CN117292174B (zh) * | 2023-09-06 | 2024-04-19 | 中化现代农业有限公司 | 苹果病害识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368893B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111523621B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
WO2019100723A1 (zh) | 训练多标签分类模型的方法和装置 | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN112069338A (zh) | 图片处理方法、装置、电子设备及存储介质 | |
CN109522945B (zh) | 一种群体情感识别方法、装置、智能设备及存储介质 | |
CN110276406B (zh) | 表情分类方法、装置、计算机设备及存储介质 | |
CN108288067A (zh) | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN111738357B (zh) | 垃圾图片的识别方法、装置及设备 | |
CN111814810A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN103617432A (zh) | 一种场景识别方法及装置 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN110381392B (zh) | 一种视频摘要提取方法及其系统、装置、存储介质 | |
CN112487207A (zh) | 图像的多标签分类方法、装置、计算机设备及存储介质 | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN112418327A (zh) | 图像分类模型的训练方法、装置、电子设备以及存储介质 | |
CN110969090A (zh) | 基于深度神经网络的水果品质识别方法及装置 | |
CN111814749A (zh) | 人体特征点的筛选方法、装置、电子设备以及存储介质 | |
CN111126626A (zh) | 一种训练方法、装置、服务器、平台及存储介质 | |
CN116883740A (zh) | 相似图片识别方法、装置、电子设备和存储介质 | |
CN114155388B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
WO2022127333A1 (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN111726592B (zh) | 获取图像信号处理器的架构的方法和装置 | |
CN111652073B (zh) | 视频分类方法、装置、系统、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |