CN112069335A

CN112069335A - 图像分类方法、装置、电子设备及存储介质

Info

Publication number: CN112069335A
Application number: CN202010917897.XA
Authority: CN
Inventors: 叶志凌
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-11

Abstract

本申请公开了一种图像分类方法、装置、电子设备及存储介质，涉及图像处理技术领域。其中，该方法包括对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组；获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系；根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。本申请实施例提供的技术方案可以更准确地确定同类图组所属的类别。

Description

图像分类方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种图像分类方法、装置、电子设备及存储介质。

背景技术

当存在多个图像时，可能有些图像因为存在一定相似性而属于一个类别，因此可以对图像进行分类。通常的分类方法，容易导致无关的图像被分类到其不属于的类别中，使分类结果不准确。

发明内容

鉴于上述问题，本申请提出了一种图像分类方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种图像分类方法，所述方法包括：对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组；获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系；根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

第二方面，本申请实施例提供了一种图像分类装置，所述装置包括：聚类模块，用于对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组；文本获取模块，用于获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系；分类模块，用于根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被所述处理器执行用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

本申请实施例提供的图像分类方法、装置、电子设备及存储介质，通过聚类先提取出属于同一类别的图像，作为进一步确定其类别的同类图组，从而避免不属于任何一个类别的无关的图像被分类到一个类别中。再获取同类图组的各个图像的文本描述，文本描述中包括了图像中物体的关系，从而根据文本描述确定同类图组的类别时，可以更准确地确定同类图组所属的类别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的图像分类方法的流程图。

图2示出了本申请另一实施例提供的图像分类方法的流程图。

图3示出了本申请实施例提供的一种聚类示意图。

图4示出了本申请又一实施例提供的图像分类方法的流程图。

图5示出了本申请实施例提供的一种相册显示示意图。

图6示出了本申请实施例提供的图像分类装置的功能模块图。

图7示出了本申请实施例提供的电子设备的结构框图。

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在具有大量图像时，对图像进行分类更便于图像的查看。该分类为从大量图像中确定各个类别的图像并识别各个类别的图像具体所属类别。例如，在手机、平板电脑等电子设备的相册中，可能存储有大量的拍摄的照片，用户若想要查看某些特殊事件的照片，需要从杂乱的照片中进行翻找，十分不便。但是，若对存储的照片进行分类，区分各个类别的照片，将照片分类显示，则用户想要查看某个类别的照片，直接根据分类结果查看，方便快捷。如将照片按事件分类，区分并识别各个事件的照片，用户想要查看某个事件的照片时，可以直接查看分类后该事件对应的照片。

但是，大量的图像中可能有一些不属于任何类别的图像，给分类带来困难，可能将不属于任何类别的图像分类到某一个类别中，导致分类不准确。例如，对电子设备存储的照片进行分类，通常是将照片分为用户在各个不同事件中拍摄的照片，如聚餐、婚礼、旅行、生日会等，但是，在存储的照片中，可能还包括了屏幕截图等与事件完全无关的图片，这些事件完全无关的图片可能被分类到某个事件中，使分类结果不准确。

因此，本申请实施例提出了的图像分类方法、装置、电子设备及存储介质，对待分类的图像进行分类并识别每个类别的图像具体所属类别。该图像分类方法中，对待分类图像进行聚类，获得属于同一类别的图像作为同类图组，对同类图组所属类别进行识别，提高了图像分类的准确性。下面将通过具体实施例对本申请实施例提供的图像分类方法、装置、电子设备及存储介质进行详细说明。

请参阅图1，示出了本申请实施例提供的图像分类方法。该方法可以用于电子设备，该电子设备可以是手机、电脑、平板电脑、智能穿戴式设备等终端设备，也可以是服务器等云端设备。若是终端设备，终端设备可以对自身拍摄的图像进行分类，也可以获取到其他设备拍摄的图像进行分类；若是云端设备，可以获取到终端设备拍摄的图像并进行分类。本申请实施例主要以终端设备为例进行说明。具体的，该方法可以包括如下步骤。

步骤S110：对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组。

待分类的图像为需要进行分类的图像，即需要确定其中的图像具体属于哪一类别。待分类的图像可以是一个或者多个。若是一个图像，该一个图像可以作为一个同类图组进行分类。本申请实施例主要以待分类的图像包括多个图像为例进行说明，其中具体的图像数量在本申请实施例中并不限定。

对待分类图像进行聚类，从而可以获得聚类后属于同一类别的图像，将属于同一类别的图像作为同类图组，用于识别同类图组具体所属类别，从而获得具体类别在相册中所包括的图像。而不属于任何一个类别的图像，则不属于任何一个同类图组，不对其进行具体所述类别的识别，避免对分类结果的干扰。

可以理解的，若待分类图像实际包括多个类别的图像，则聚类后可以获得多个类别，每一个类别中的图像作为一个同类图组。若待分类图像实际只包括一个类别的图像，则聚类后获得一个类别，将该类别的图像作为一个同类图组。

步骤S120：获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系。

对于一个同类图组，可以获取其中各个图像的文本描述。每个图像的文本描述可以为一句或多句话，即图像的文本描述为通过语句描述图像中物体之间的关系，从而将低语义的视觉信息转换为高级语义的文本信息。

步骤S130：根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

由于图像的文本描述包括了图像中物体的关系，对于每个具体的类别，涉及到的物体以及物体之间的关系具有共性以及关联性，因此，对于每个具体的类别，对其进行描述的文本描述具有共性以及关联性，该共性以及关联性体现了类别的独特特征。或者说，描述同一类别的语句，其具有该类别所具有的特征，从而多个描述同一类别的语句相结合，可以表示该类别具有的独特特征。例如，对于婚礼这一事件，属于婚礼这一类别，婚礼中的图像的描述语句，可能涉及到婚礼中的物体以及物体之间具有的关系，如“许多人在教堂”、“穿着白婚纱的新娘”、“许多人在大厅享受美食”等，这些文本描述具有婚礼所具有的共性以及与婚礼相关的关联性，结合这些特征，可以确定该类别为婚礼。

因此，根据同类图组中各个图像的文本描述，可以获得该同类图组所属类别的特征，从而确定同类图组对应的类别，即确定同类图组具体所属的类别。如，每个类别可以具有类别名称，确定同类图组对应的类别，可以是确定同类图组的类别名称，从而便于识别。

在本申请实施例中，若待分类图像聚类后获得多个类别，则可以获得多个同类图组。对于每个同类图组，可以获取其中各个图像的文本描述，根据同类图组中图像的文本描述，确定同类图组的类别。

在本申请实施例中，对待分类图像进行聚类，从而提取出待分类图像中属于同一类别的图像，将属于同一类别的图像作为同类图组，剔除了不属于任何类别的无关图像。再对同类图组获取各个图像的文本描述，根据同类图组中各个图像的文本描述确定同类图组具体所属类别，基于低语义的视觉信息转换为高级语义的文本信息后的分类，提高分类的准确性。

可选的，在本申请实施例中，可以根据待分类图像的图像特征进行聚类，例如，通过图像特征提取算法提取待分类图像的图像特征，再通过聚类算法对图像特征进行聚类，属于同一类别的图像特征对应的图像，确定为同一类别的图像。

可选的，在本申请实施例中，同类图组的类别可以是事件类别，一个事件类别的图像属于一个事件中的图像。对于同一事件，图像拍摄时的环境信息具有相似性，因此，可以根据环境信息对待分类图像进行分类，相比于根据图像特征进行分类，降低了对图像特征的依赖，并且，属于同一事件的图像即使图像特征差别较大，也可以准确分类到同一类别。本申请另一实施例提供的图像分类方法，详细描述了根据环境信息对待分类图像的聚类实现分类。具体的，请参见图2，该实施例的图像分类方法包括如下步骤，其中，步骤S210至步骤S230可以实现对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组。

步骤S210：获取待分类图像拍摄时的环境信息。

待分类图像可以是通过拍摄获得的图像，如可以是电子设备的相册中的图像，或者电子设备获取到的其他设备拍摄的图像。可选的，待分类图像可以是电子设备中的所有拍摄的图像；也可以是部分拍摄的图像，如最近的预设时间范围内的图像，如最近一周拍摄的图像、最近一个月拍摄的图像等。

获取同类图组对应的类别，可以是获取同类图组所属的事件。对于同一事件的各个图像，拍摄时拍摄地的环境信息具有相似性，如拍摄图像的时间差别较小，拍摄图像的地理位置较为接近，拍摄图像时的气候条件相似，如湿度、温度、光照强度等相似，拍摄时周围的声音的声音特征相似等。从而可以通过环境信息的相似性确定属于同一类别的图像。

对应的，图像在拍摄时，可以对应图像记录拍摄时的环境信息，如拍摄时的地理位置，拍摄时的时间、周围的温度、湿度、光照强度、声音特征等中的一种或多种。其中，各种环境信息可以通过电子设备中的相应检测设备获得，如通过电子设备的定位系统获得地理位置以及时间，如通过GPS定位系统获取地理位置和时间；通过温度传感器获取温度；通过湿度传感器获取环境中的湿度；通过光照传感器获取环境的光照强度；通过麦克风获取环境中的声音以提取声音特征等。

获取待分类图像拍摄时的环境信息可以是，获取各个待分类图像分别对应的环境信息。在本申请实施例中，对于每一待分类图像，可以获取所有记录的环境信息，也可以获取部分环境信息，在本申请实施例中并不限定。各个待分类图像获取的环境信息种类相同。

步骤S220：通过聚类算法，对获取的环境信息进行聚类。

由于同一类别的图像的环境信息具有相似性，因此可以通过聚类算法对获取的环境信息进行聚类，将获取的具有相似性的环境信息聚类为一个类别。可选的，由于一个事件通常不止拍摄一张图像，且多张图像进行分类时更加准确，在本申请实施例中，每个类别中环境信息的数量可以大于预设数量，预设数量的具体值在本申请实施例中并不限定。

在一种实施方式中，通过聚类算法，对获取的环境信息进行聚类可以是，获取彼此之间差别较小的环境信息作为统一类别的环境信息。具体的，环境信息之间的差别，可以将每个图像的环境信息转换为坐标系中的点，通过点之间的距离进行衡量，小于预设距离的点作为同一类别中的点。具体可以根据环境信息的种类建立坐标系，本申请实施例环境信息包括地理位置以及时间为例进行说明，如图3所示，以时间为横坐标，地理位置为纵坐标，根据每个环境信息的时间以及地理位置，将每个环境信息作为坐标系中的一个点。遍历待分类图像对应的所有的点，且不重复遍历。对于每一个遍历到的点，如果其预设距离范围内有大于预设数量的点，则标记遍历到的这个点为核心点，核心点的预设范围内定义为核心点的领域，在核心点预设范围内的点为该核心点的领域内的点。对于每一个点，如果是核心点，则将该核心点以及该核心点领域内的点加入一个聚类簇，在同一个聚类簇中的点如果是核心点，将该核心点领域内的点仍然加入该聚类簇，直到聚类簇中的所有核心点的领域内的点都加入到该聚类簇中，该聚类簇中的环境信息为同一类别的环境信息。例如图3所示，可以获得聚类簇101以及聚类簇102，聚类簇101内的各个点对应的环境信息为同一类别的环境信息，聚类簇102内的各个点对应的环境信息为同一类别的环境信息。

在另一种实施方式中，可以通过现有的聚类算法对环境信息进行聚类，如HDBSCAN算法、K-Means算法、MeanShift算法等。每一种聚类算法中，可以设置同一类别中图像的数量大于预设数量。

步骤S230：将聚类获得的同一类别的环境信息对应的图像提取为属于同一类别的图像，作为同类图组。

每个环境信息对应一个图像，即每个环境信息为一个图像的环境信息，因此，可以将同一类别的环境信息对应的图像提取为同一类别的图像，作为一个同类图组。另外，不属于任何一个类别的环境信息，其对应的图像则不属于任何一个类别。

如图3所示，环境信息为聚类簇101内的环境信息的图像，为同一个类别的图像，作为一个同类图组；环境信息为聚类簇102内的环境信息的图像，为同一个类别的图像，作为一个同类图组，根据图3所示的聚类，可以获得两个同类图组。点103以及点104分别对应的图像，不属于任何同类图组。

步骤S240：获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系。

步骤S250：根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

步骤S240以及步骤S250的具体描述可以参见本申请实施例中相同或相似的描述，在此不再赘述。

在本申请实施例中，根据环境信息对待分类图像进行聚类，降低了对图像特征的依赖性，使分类处理的速度更快功耗更小，并且，使获得的同一类别的图像的准确性更高。在对同类图组进行类别识别时，识别准确性更高，且识别到的具体类别中所包括的图像更准确。

本申请另一实施例提供的图像分类方法，详细描述了获取文本描述的方法以及类别的具体识别方法。请参见图4，该实施例提供的方法包括如下步骤。

步骤S310：对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组。

步骤S310可以参见本申请实施例中相同或相应的步骤，在此不再赘述。

步骤S320：对于同类图组中的每个图像，将所述图像输入文本提取模型，所述文本提取模型用于对输入的图像通过文本描述输出图像中物体的关系。

步骤S330：获取所述文本提取模型输出的所述图像的文本描述。

获取同类图组中各个图像的文本描述时，可以通过文本提取模型实现，该用于获取文本描述的文本提取模型可以是训练后的神经网络模型，可以是一个基于深度学习的视觉摘要提取模型，对输入其中的图像输出文本描述，该文本描述获取的为图像的视觉特征的摘要文本，可以描述该图像中物体之间的关系。该物体之间的关系可以包括位置关系、交互关系等，如图像中有多个人、有菜市场且有户外的天空，则文本描述中物体之间的关系可以是“一群人在户外菜市购物”。

在训练文本提取模型时，可以以标注有文本描述的图像作为训练样本，即每个训练样本可以预先人工标注文本描述。将各个训练样本输入文本提取模型，在文本提取模型输出的文本描述与训练样本标注的文本描述差别大于预设差别时，调整文本提取模型中的各个参数，使文本提取模型对应训练样本输出的文本描述与训练样本标注的文本描述差别减小，通过多次调整，直到文本提取模型对应训练样本输出的文本描述与训练样本标注的文本描述之间的差别小于预设差别，获得训练好的文本提取模型，具有描述图像中物体之间关系的能力。

在通过训练好的文本提取模型获取同类图组中图像的文本描述时，可以将各个图像输入文本提取模型，并获取文本提取模型对应图像输出的文本描述，获得同类图组中所有图像的文本描述。

可选的，在本申请实施例中，文本提取模型的具体结构可以是，包括相互连接的第一神经网络模型以及第二神经网络模型，以第一神经网络模型的输出作为第二神经网络模型的输入，第二神经网络模型输出文本描述。其中，该第一神经网络模型可以用于提取图像的特征向量，第二神经网络模型具有将图像的特征向量转换为文字的能力，可以用于根据当前输入的特征向量，输出文字，且该文字与前一次输出的文字相关联。

通过该文本提取模型获取图像的文本描述时，可以将图像输入第一神经网络模型，获取所述第一神经网络模型输出的特征向量；将特征向量多次输入所述第二神经网络模型，获取第二神经网络模型每次输出的文字；将多次输入对应输出的文字组合为所述文本描述。

也就是说，需要获取文本描述的图像，可以输入第一神经网络模型，第一神经网络模型输出该图像的特征向量。该第一神经网络具体为何种神经网络在本申请实施例中并不限定，可以从具有提取图像特征向量的功能的神经网络中选取，如CNN网络。

再将第一神经网络输出的特征向量输入一次第二神经网络模型，第二神经网络模型输出一个文字；再将该特征向量输入第二神经网络模型，第二神经网络模型再输出一个文字，直到将该特征向量输入第二神经网络模型的次数达到预设次数并对应获得与预设次数数量相等的文字。例如，预设次数为20次，将该特征向量输入第二神经网络模型20次，对应获得20个文字。

其中，第二神经网络模型可以具有记忆能力，可以记忆之前的输出，如本申请实施例中记忆相同输入对应的输出。并且，第二神经网络的输出依赖于当前的输入和记忆，从而使本次输出可以是根据当前输入以及记忆进行预测，使当前输出与历史输出之间具有逻辑关系，实现多次输出的文字按照时间顺序拼接时，可以获得具有逻辑性的语句。该第二神经网络具体为何种网络在本申请实施例中并不限定，例如可以是满足对第二神经网络的功能要求的循环神经网络RNN。

在获得第二神经网络输出的文字后，可以将第二神经网络输出的各个文字按照时间先后顺序进行由前到后的组合，组合形成的语句作为图像对应的文本描述。

在本申请实施例中，文字具体的类型并不限定，可以是中文字符、外文字符、单词以及空格等中的一种或多种。具体为何种类型，可以根据对该文字提取模型的训练确定，如训练时调整文字提取模型的参数，使其输出单词以及空格，则文字提取模型中第二神经网络输出的可能包括单词以及空格等。

在本申请实施例中，训练包括相互连接的第一神经网络模型以及第二神经网络模型的文本提取模型时，可以以标注有文本描述的图像作为训练样本，将训练样本输入第一神经网络模型，第一神经网络模型输出该训练样本的特征向量，将该特征向量多次输入第二神经网络模型获得多次输出的文字组成的文本描述，根据输出的文本描述与标注的文本描述之间的差别是否大于预设差别，确定是否继续调整第一神经网络模型的参数以及第二神经网络模型的参数。即若差别大于预设差别，调整第一神经网络模型的参数以及第二神经网络模型的参数使差别减小，直至差别小于预设差别，获得训练好的第一神经网络模型的参数以及第二神经网络模型。其中，该差别可以通过输出的文本描述与标注的文本描述之间的相似度判断。

步骤S340：根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

获得同类图组中所有图像的文本描述，则获得了对同类图组对应的类别的不同描述，结合所有的描述，可以确定同类图组所属的具体类别，或者说，可以确定该同类图组的类别名称。

在一种具体的实施方式中，可以通过分类模型对同类图组所属类别进行确定。该分类模型可以是经过训练后，具有分类能力的神经网络模型，可以确定输入其中的文本组所属类别，该文本组表示多条语句，或者说多条文本描述。如可以是基于自然语言处理(NLP)的事件识别神经网络模型。

其中，分类模型确定输入其中的文本组所属类别时，该文本组被确定为分类模型预先训练时学习的多个类别中的一个，或者为不属于任何一个类别，即没有实现分类。例如，在训练分类模型时，其学习的类别包括类别A、类别B、类别C以及类别D，则在使用该分类模型确定文本组的类别时，该文本组确定为该4个类别中的一个，或者不属于该四个类别中的任何一个。

具体的，在对分类模型进行训练时，可以以标注有类别的文本组作为训练样本，训练样本标注的类别即标注的类别名称。每个训练样本标注一个类别名称，多个训练样本分别标注对应的类别名称。将训练样本输入分类模型，分类模型输出该分类模型所属类别。若分类模型输出的类别与训练样本本身标注的类别不同，则对分类模型的参数进行调整，使分类模型输出的类别向训练样本标注的类别靠近。多次进行输出类别与标注的类别的比较以及参数调整，直至分类模型输出的类别与训练样本的类别相同。通过多个训练样本对分类模型进行训练，调整分类模型的参数，直至分类模型的分类准确率达到预设准确率，获得可以用于对同类图组进行分类的分类模型。分类模型的分类准确率表示，分类模型输入第一数量的文本组，分类准确的文本组的数量为第二数量，第二数量占第一数量的比例表示分类模型的准确率。

可选的，在本申请实施例中，分类模型的输出可以是向量，该向量中包括多个数值，各个数值分别表示该分类模型学习的不同类别，每个数值对应一个类别的概率，向量中最大的数值若大于第一预设值，且其他数值小于第二预设值，表示分类模型输出的类别为该最大数值对应的类别，第一预设值大于或等于第二预设值。例如，分类模型输出的向量为(x，y，z)，x对应类别A的概率，y对应类别B的概率，z对应类别C的概率，若x的值大于第一预设值，y和z的值小于第二预设值，可以确定该输出表示的类别为类别A。调整分类模型的输出向某个类别靠近，则是调整分类模型输出的向量中，该类别对应的数值增大至大于第一预设值，其他类别对应的数值减小至小于第二预设值。

在通过训练好的分类模型确定同类图组的具体类别时，可以将同类图组中各个图像的文本描述作为一组输入数据，输入分类模型。即将同类图组中的所有图像的文本描述作为一组输入数据，或者说作为一个文本组，输入分类模型。再获取所述分类模型输出的类别，作为所述同类图组对应的类别。如，分类模型输出的类别为“婚礼”，表示该同类图组具体所属类别为婚礼；分类模型输出类别为“旅行”，表示该同类图组具体所属类别为旅行。

在另一种实施方式中，也可以是，预先设置每个类别对应的关键词以及关键词之间的关系，作为类别信息。在确定同类图组所属类别时，可以通过语义识别，从同类图组的所有文本描述中提取关键词以及关键词之间的关系，作为同类图组的类别信息。将提取的类别信息与预先设置的每个类别中的类别信息进行相似度比较，将相似度最高且大于预设相似度的类别，作为该同类图组的类别。

可选的，在本申请实施例中，确定同类图组对应的类别，即确定了同类图组具体所属的类别，或者说同类图组的类别名称。为了方便查看，可以将各个同类图组分别以不同的文件夹显示，每个文件夹中存放一个同类图组中的图像，每个文件夹的命名为其存放的同类图组的名称。例如图5所示，分类相册中，“事件1”对应的文件夹中，存储的为类别为“事件1”的同类图组中的图像，打开该“事件1”对应的文件夹，可以看到类别为“事件1”的图像。同理，图5中的“事件2”对应的文件夹，存放类别名称为“事件2”的同类图组中的图像；图5中的“事件3”对应的文件夹，存放类别名称为“事件3”的同类图组中的图像。

在本申请实施例中，可以通过文本提取模型获取对图像中的物体关系进行描述的文本描述，通过分类模型根据同类图组中所有图像的文本描述对同类图组所属的具体类别进行确定，从而提高了同类图组类型确定的准确性。

本申请另一实施例还提供了一种图像分类装置400，如图6所示，该装置400包括：聚类模块410，用于对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组；文本获取模块420，用于获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系；分类模块430，用于根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

可选的，聚类模块410可以用于获取待分类图像拍摄时的环境信息；通过聚类算法，对获取的环境信息进行聚类；将聚类获得的同一类别的环境信息对应的图像提取为属于同一类别的图像。

可选的，所述环境信息包括图像拍摄时的地理位置以及时间。

可选的，文本获取模块420可以用于对于同类图组中的每个图像，将所述图像输入文本提取模型，所述文本提取模型用于对输入的图像通过文本描述输出图像中物体的关系；获取所述文本提取模型输出的所述图像的文本描述。

可选的，所述文本提取模型包括相互连接的第一神经网络模型以及第二神经网络模型，所述第一神经网络模型用于提取图像的特征向量，所述第二神经网络模型用于根据当前输入的特征向量，文本获取模块420可以用于将所述图像输入第一神经网络模型，获取所述第一神经网络模型输出的特征向量；将所述特征向量多次输入所述第二神经网络模型，获取所述第二神经网络模型每次输出的文字；将多次输入对应输出的文字组合为所述文本描述。

可选的，分类模块430可以用于将同类图组中各个图像的文本描述作为一组输入数据，输入分类模型，所述分类模型用于确定输入其中的文本组所属类别；获取所述分类模型输出的类别，作为所述同类图组对应的类别。

可选的，待分类图像可以为电子设备的相册中的图像，所述同类图组对应的类别为所述同类图组所属的事件。

本申请实施例提供的图像分类方法及装置，可以通过无监督的聚类算法，根据时间、地点等环境信息，智能地过滤无关图片，获取相关图片实现聚类，避免人为设定规则带来的局限性。通过文本提取模型对同类图组提取文本描述，将低语义的视觉信息转换为高级语义的文本信息，提高了整个模型的抽象能力；再通过基于文本的分类模型，最后推理出图组的事件类别。该图像分类方法及装置可以不读取用户信息，利用少量图像信息进行图像的聚类以及文本描述的获取，即可完成高准确率的相册事件提取功能，且分类准确。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述的各个方法实施例之间可以相互参照；上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中，也可以配置在相同的电子设备中，本申请实施例并不限定。

请参考图7，其示出了本申请实施例提供的一种电子设备500的结构框图。该电子设备可以包括一个或多个处理器510(图中仅示出一个)，存储器520以及一个或多个程序。其中，所述一个或多个程序被存储在所述存储器520中，并被配置为由所述一个或多个处理器510执行。所述一个或多个程序被处理器执行用于执行前述实施例所描述的方法。

处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器520内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据。可选地，处理器510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。

存储器520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组；

获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系；

根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

2.根据权利要求1所述的方法，其特征在于，所述对待分类图像进行聚类，提取属于同一类别的图像，包括：

获取待分类图像拍摄时的环境信息；

通过聚类算法，对获取的环境信息进行聚类；

将聚类获得的同一类别的环境信息对应的图像提取为属于同一类别的图像。

3.根据权利要求2所述的方法，其特征在于，所述环境信息包括图像拍摄时的地理位置以及时间。

4.根据权利要求1所述的方法，其特征在于，所述获取同类图组中各个图像的文本描述，包括：

对于同类图组中的每个图像，将所述图像输入文本提取模型，所述文本提取模型用于对输入的图像通过文本描述输出图像中物体的关系；

获取所述文本提取模型输出的所述图像的文本描述。

5.根据权利要求4所述的方法，其特征在于，所述文本提取模型包括相互连接的第一神经网络模型以及第二神经网络模型，所述第一神经网络模型用于提取图像的特征向量，所述第二神经网络模型用于根据当前输入的特征向量，输出与前一次输出的文字相关联的文字，所述将所述图像输入文本提取模型，获取所述文本提取模型输出的所述图像的文本描述，包括：

将所述图像输入第一神经网络模型，获取所述第一神经网络模型输出的特征向量；

将所述特征向量多次输入所述第二神经网络模型，获取所述第二神经网络模型每次输出的文字；

将多次输入对应输出的文字组合为所述文本描述。

6.根据权利要求1所述的方法，其特征在于，所述根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别，包括：

将同类图组中各个图像的文本描述作为一组输入数据，输入分类模型，所述分类模型用于确定输入其中的文本组所属类别；

获取所述分类模型输出的类别，作为所述同类图组对应的类别。

7.根据权利要求1所述的方法，其特征在于，所述待分类图像为电子设备的相册中的图像，所述同类图组对应的类别为所述同类图组所属的事件。

8.一种图像分类装置，其特征在于，所述装置包括：

聚类模块，用于对待分类图像进行聚类，提取属于同一类别的图像，作为同类图组；

文本获取模块，用于获取同类图组中各个图像的文本描述，所述文本描述包括图像中物体的关系；

分类模块，用于根据同类图组中各个图像的文本描述，确定所述同类图组对应的类别。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被所述处理器执行用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。