CN111931840A - 一种图片分类的方法、装置、设备及存储介质 - Google Patents
一种图片分类的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111931840A CN111931840A CN202010772581.6A CN202010772581A CN111931840A CN 111931840 A CN111931840 A CN 111931840A CN 202010772581 A CN202010772581 A CN 202010772581A CN 111931840 A CN111931840 A CN 111931840A
- Authority
- CN
- China
- Prior art keywords
- picture
- category
- classified
- probability
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000013145 classification model Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 241000272168 Laridae Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图片分类的方法、装置、设备及存储介质。其中,该方法包括:根据待分类图片的全局信息,确定所述待分类图片的全局图片类别;根据待分类图片的局部信息,确定所述待分类图片的图片主题类别;根据所述全局图片类别和所述图片主题类别,确定所述待分类图片的图片分类结果。本发明实施例中获取图片的全局图片类别和图片主题类别,通过综合判别全局图片类别和图片主题类别,确定图片的分类结果,解决了现有技术中只通过视觉特征确定全局图片类别,导致图片分类不准确的问题,考虑了局部特征对图片分类的影响,提高图片分类精度。
Description
技术领域
本发明实施例涉及计算机技术,尤其涉及一种图片分类的方法、装置、设备及存储介质。
背景技术
图片场景分类是计算机图片分类里的一种处理场景,随着深度学习技术的广泛应用,计算图片分类也越来越多的采用深度学习的方法进行处理。
目前基于深度学习的图片分类系统,一般都是通过将图片的视觉特征送入深度神经网络进行分类映射计算,主要是针对视觉特征直接进行图片内容分类,利用的是图片内容的全局信息,缺少针对焦点区域视觉特征的充分利用。因此导致对于某些场景内容复杂的图像,分类结果不够准确。
发明内容
本发明实施例提供一种图片分类的方法、装置、设备及存储介质,以提高图片分类的准确度。
第一方面,本发明实施例提供了一种图片分类方法,该方法包括:
根据待分类图片的全局信息,确定所述待分类图片的全局图片类别;
根据待分类图片的局部信息,确定所述待分类图片的图片主题类别;
根据所述全局图片类别和所述图片主题类别,确定所述待分类图片的图片分类结果。
第二方面,本发明实施例还提供了一种图片分类装置,该装置包括:
全局类别确定模块,用于根据待分类图片的全局信息,确定所述待分类图片的全局图片类别;
主题类别确定模块,用于根据待分类图片的局部信息,确定所述待分类图片的图片主题类别;
分类结果确定模块,用于根据所述全局图片类别和所述图片主题类别,确定所述待分类图片的图片分类结果。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的图片分类方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的图片分类方法。
本发明实施例通过获取待分类图片的全局图片类别和图片主题类别,并对全局图片类别和图片主题类别进行综合判别,确定待分类图片的分类结果。解决了现有技术中只通过视觉特征得到全局图片类别,从而确定分类结果所导致图片分类不准确的问题,考虑了图片的局部特征对图片分类的影响,提高图片分类精度。
附图说明
图1是本发明实施例一中的一种图片分类方法的流程示意图;
图2是本发明实施例一中的待分类图片示意图;
图3是本发明实施例二中的一种图片分类方法的流程示意图;
图4是本发明实施例三中的一种图片分类装置的结构框图;
图5是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种图片分类方法的流程示意图,本实施例可适用于为图片进行分类的情况,该方法可以由一种图片分类装置来执行。如图1所示,该方法具体包括如下步骤:
步骤110、根据待分类图片的全局信息,确定待分类图片的全局图片类别。
其中,获取到待分类图片,将待分类图片输入到预先训练的图片分类神经网络模型中,输出全局图片类别。图片分类神经网络模型可以利用多个卷积层进行视觉特征的提取,基于待分类图片整体的视觉特征,得到待分类图片的全局图片类别。
图片分类神经网络模型为基于深度学习构造的图片分类神经网络模型。例如,可以采用基于残差结构的神经网络或多尺度特征融合机制的谷歌Inception(创始)网络作为图片分类神经网络模型。全局信息是指待分类图片整体的视觉特征,全局图片类别是指针对待分类图片的全局信息所得到的图片类别。图2为待分类图片示意图。图2中一只海鸥在水面飞翔,根据图2的全局信息和图片分类神经网络模型,可以得到图2的全局图片类别为水景图。
步骤120、根据待分类图片的局部信息,确定待分类图片的图片主题类别。
其中,待分类图片的局部信息是指待分类图片中不同区域上的信息,图片主题类别是指针对局部信息获得待分类图片所展示的图片主题,根据图片主题得到图片主题类别。可以通过预先训练的深度神经网络模型提取局部特征,输出图片主题类别。
本实施例中,可选的,根据待分类图片的局部信息,确定待分类图片的图片主题类别,包括:根据待分类图片的局部信息,确定待分类图片的主题语义文本;根据主题语义文本,得到待分类图片的图片主题类别。
具体的,图片主题语义模型为预先训练的深度神经网络模型,将待分类图片输入到预先训练的图片主题语义模型中,由图片主题语义模型提取待分类图片的局部特征,输出待分类图片的主题语义文本,主题语义文本是指将待分类图片的内容以文本信息的形式进行描述。在确定主题语义文本之后,将主题语义文本输入到预先训练的文本分类模型中,由文本分类模型输出待分类图片的图片主题类别。可以采用基于深度学习的文本分类模型,文本分类模型可以对文本信息进行分类。例如,待分类图片的主题语义文本为“两只小猫在睡觉”,则通过文本分类模型,可知该主题语义文本属于动物类的内容,因此,待分类图片的图片主题类别为动物类。这样设置的有益效果在于,先获取主题语义文本,再对主题语义文本进行分类,避免了直接对待分类图片进行分类所造成的信息遗漏问题,提高图片分类的正确性。
本实施例中,可选的,根据待分类图片的局部信息,确定待分类图片的主题语义文本,包括:将待分类图片划分为至少两个局部区域图片;将当前局部区域图片以及上一局部区域图片的主题语义文本输入到图片主题语义模型中的局部特征提取模块,确定叠加局部区域的嵌入向量;其中,叠加局部区域包括当前局部区域图片以及在当前局部区域图片之前各局部区域图片;将嵌入向量输入到图片主题语义模型中的语义信息描述模块,确定叠加局部区域的主题语义文本。
具体的,图片主题语义模型可以分为局部特征提取模块和语义信息描述模块,其中,局部特征提取模块用于对待分类图片的局部信息进行特征提取,生成该局部区域的嵌入向量,语义信息描述模块用于根据嵌入向量,预测该局部区域嵌入特征最大可能映射到的文本,得到该局部区域的主题语义文本。
将待分类图片划分为至少两个局部区域图片,在得到上一局部区域图片的主题语义文本后,将当前局部区域图片和上一局部区域图片的主题语义文本输入到局部特征提取模块中,得到叠加局部区域的嵌入向量。叠加局部区域中可以包括当前局部区域图片以及在当前局部区域图片之前各局部区域图片,即叠加局部区域的嵌入向量是指当前局部区域图片以及在当前局部区域图片之前各局部区域图片的嵌入向量,若上一局部区域图片不是第一个局部区域图片,则上一局部区域图片的嵌入向量为上一局部区域以及在上一局部区域图片之前各局部区域图片的嵌入向量。将每次循环时的叠加局部区域的嵌入向量输入到语义信息描述模块中,得到叠加局部区域的主题语义文本。若局部区域全部循环结束,所得到的叠加局部区域的主题语义文本即为待分类图片的主题语义文本。
例如,可以将待分类图片分为三个局部区域,分别为第一区域、第二区域和第三区域,将第一区域输入到局部特征提取模块中,得到第一区域的第一嵌入向量,再将第一区域的第一嵌入向量输入到语义信息描述模块,得到第一区域的第一主题语义文本;将第一区域的第一主题语义文本和第二区域输入到局部特征提取模块,得到叠加了第一区域和第二区域的第二嵌入向量,在将第二嵌入向量输入到语义信息描述模块,得到第一区域和第二区域的第二主题语义文本;将第二主题语义文本和第三区域输入到局部特征提取模块,得到了待分类图片的第三嵌入向量,将第三嵌入向量输入到语义信息描述模块,得到待分类图片的主题语义文本。这样设置的有益效果在于,由于每次输入包含了上一次的输出,相当于使用了深度学习的注意力机制,使得最终待分类图片每个区域产生的对应语义文本描述都兼顾了邻接区域输入的语义文本的影响,快速得到一个面向待分类图片内容主题且相对通顺的语义信息描述,提高了主题语义文本生成的效率和精确性。例如,通过图片主题语义模型,可以得到图2的主题语义文本为“一只海鸥在水面飞翔”,不仅得到水景特征,还得到了海鸥的动物特征。
步骤130、根据全局图片类别和图片主题类别,确定待分类图片的图片分类结果。
其中,图片分类神经网络模型可以输出待分类图片的全局图片类别,以及该全局图片类别作为待分类图片类别的可能概率。图片主题语义模型可以输出待分类图片的图片主题类别,以及该图片主题类别作为待分类图片类别的可能概率。根据全局图片类别的可能概率和图片主题类别的可能概率,从全局图片类别和图片主题类别中选择待分类图片的图片分类结果。
本实施例中,可选的,根据全局图片类别和图片主题类别,确定待分类图片的图片分类结果,包括:根据确定全局图片类别的图片分类神经网络模型,得到全局图片类别的第一概率;根据图片主题语义模型,得到图片主题类别的第二概率;比较第一概率和第二概率,确定待分类图片的图片分类结果。
具体的,第一概率为全局图片类别作为待分类图片类别的概率,第二概率为图片主题类别作为待分类图片类别的概率,比较第一概率和第二概率的大小,将概率大的类别作为待分类图片的图片分类结果。例如,根据图片分类神经网络模型,得到待分类图片的全局图片类别为“水景类”,概率为70%,根据图片主题语义模型得到待分类图片的图片主题类别为“动物类”,概率为90%,则待分类图片的图片分类结果为“动物类”。这样设置的有益效果在于,通过比较全局图片类别的第一概率和图片主题类别的第二概率,确定最终的图片分类结果,可以综合考虑图片的全局信息和局部信息,实现针对焦点区域视觉特征的利用,提高图片分类精度。
本实施例中,可选的,在根据图片主题语义模型,得到图片主题类别的第二概率之后,还包括:根据第一概率、第二概率以及预设的概率权重,确定待分类图片的第一概率权重结果和第二概率权重结果;比较第一概率权重结果和第二概率权重结果,确定待分类图片的图片分类结果。
具体的,预设第一概率的概率权重和第二概率的概率权重,在得到第一概率和第二概率后,根据预设的概率权重,计算第一概率权重结果和第二概率权重结果。比较第一概率权重结果和第二概率权重结果,将较大值所对应的图片类别作为待分类图片的图片分类结果。例如,第一概率为10,第二概率为12,第一概率的概率权重为20,第二概率的概率权为10,虽然第一概率小于第二概率,但第一概率权重结果大于第二概率权重结果,因此,待分类图片的图片分类结果为全局图片类别。根据全局图片类别与图片主题类别的重要性,确定图片分类结果,提高图片分类的精度。
本实施例中,可选的,比较第一概率和所述第二概率,确定待分类图片的图片分类结果,包括:若第一概率和所述第二概率的差值超过预设差值,则将第一概率和所述第二概率中概率值大的对应类别作为待分类图片的图片分类结果;若第一概率和第二概率的差值在预设差值内,则将全局图片类别和图片主题类别作为待分类图片的图片分类结果。
具体的,比较第一概率和第二概率,若差值大于预设差值,则可以直接将大概率值所对应的图片分类结果作为待分类图片的图片分类结果;若差值小于或等于预设差值,则说明全局图片类别和图片主题类别均可以准确表示待分类图片的类别,将全局图片类别和图片主题类别均作为待分类图片的图片分类结果,提高图片分类的精度。
本实施例的技术方案,通过获取待分类图片的全局图片类别和图片主题类别,并对全局图片类别和图片主题类别进行综合判别,确定待分类图片的分类结果。解决了现有技术中只通过视觉特征得到全局图片类别,从而确定分类结果所导致的图片分类不准确的问题,考虑了图片的局部特征对图片分类的影响,提高图片分类精度。
实施例二
图3为本发明实施例二所提供的一种图片分类方法的流程示意图,本实施例以上述实施例为基础进行进一步的优化,该方法可以由一种图片分类装置来执行。如图3所示,该方法具体包括如下步骤:
步骤310、根据待分类图片的全局信息,确定待分类图片的全局图片类别。
步骤320、根据待分类图片的局部信息,确定待分类图片的主题语义文本。
步骤330、根据主题语义文本,得到待分类图片的图片主题类别。
其中,在得到主题语义文本之后,根据主题语义文本的内容,确定该主题语义文本所属的图片主题类别。
本实施例中,可选的,根据主题语义文本,得到待分类图片的图片主题类别,包括:将主题语义文本输入到预先训练的语言预训练模型中,得到标准主题语义文本;将标准主题语义文本输入到预先训练的文本分类模型中,得到待分类图片的图片主题类别。
具体的,预先训练一个语言预训练模型,语言预训练模型用于将不通顺或不标准的语句修改为标准格式的通顺语句,使语句含义更加清晰。将图片主题语义模型输出的主题语义文本,输入到语言预训练模型中,由语言预训练模型输出标准主题语义文本。例如,主题语义文本为“水面上海鸥飞”,将主题语义文本输入到语言预训练模型中后,可以得到标准主题语义文本为“海鸥在水面上飞”。将标准主题语义文本输入到文本分类模型中,根据自然语言处理技术,得到标准主题语义文本的所属图片主题类别,从而得到待分类图片的图片主题类别。这样设置的有益效果在于,通过将主题语义文本转换为标准主题语义文本,避免文本分类模型对主题语义文本识别错误,影响图片主题类别的确定结果,提高图片主题类别的确认精度。
步骤340、根据全局图片类别和图片主题类别,确定待分类图片的图片分类结果。
本发明实施例通过采用语言预训练模型和文本分类模型,确定图片主题类别,在获取待分类图片的全局图片类别和图片主题类别后,对全局图片类别和图片主题类别进行综合判别,确定待分类图片的分类结果。解决了现有技术中只通过视觉特征得到全局图片类别,从而确定分类结果所导致的图片分类不准确的问题,考虑了图片的局部特征对图片分类的影响,提高图片分类精度。
实施例三
图4为本发明实施例三所提供的一种图片分类装置的结构框图,可执行本发明任意实施例所提供的图片分类方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置具体包括:
全局类别确定模块401,用于根据待分类图片的全局信息,确定待分类图片的全局图片类别;
主题类别确定模块402,用于根据待分类图片的局部信息,确定待分类图片的图片主题类别;
分类结果确定模块403,用于根据全局图片类别和图片主题类别,确定待分类图片的图片分类结果。
可选的,主题类别确定模块402,包括:
主题语义确定单元,用于根据待分类图片的局部信息,确定待分类图片的主题语义文本;
主题类别生成单元,用于根据主题语义文本,得到待分类图片的图片主题类别。
可选的,主题语义确定单元,包括:
局部区域划分单元,用于将待分类图片划分为至少两个局部区域图片;
嵌入向量确定单元,用于将当前局部区域图片以及上一局部区域图片的主题语义文本输入到图片主题语义模型中的局部特征提取模块,确定叠加局部区域的嵌入向量;其中,叠加局部区域包括当前局部区域图片以及在当前局部区域图片之前各局部区域图片;
语义文本确定单元,用于将嵌入向量输入到图片主题语义模型中的语义信息描述模块,确定叠加局部区域的主题语义文本。
可选的,主题类别生成单元,包括:
标准文本确定单元,用于将所述主题语义文本输入到预先训练的语言预训练模型中,得到标准主题语义文本;
图片主题类别获得单元,用于将标准主题语义文本输入到预先训练的文本分类模型中,得到待分类图片的图片主题类别。
可选的,分类结果确定模块403,包括:
第一概率确定单元,用于根据确定全局图片类别的图片分类神经网络模型,得到全局图片类别的第一概率;
第二概率确定单元,用于根据图片主题语义模型,得到图片主题类别的第二概率;
概率比较单元,用于比较第一概率和第二概率,确定待分类图片的图片分类结果。
可选的,图片分类神经网络模型为基于深度学习构造的图片分类神经网络模型。
可选的,所述装置还包括:
权重确定模块,用于根据所述第一概率、所述第二概率以及预设的概率权重,确定所述待分类图片的第一概率权重结果和第二概率权重结果;
权重比较模块,用于比较所述第一概率权重结果和第二概率权重结果,确定所述待分类图片的图片分类结果。
可选的,概率比较单元,具体用于:
若所述第一概率和所述第二概率的差值超过预设差值,则将所述第一概率和所述第二概率中概率值大的对应类别作为所述待分类图片的图片分类结果;
若所述第一概率和所述第二概率的差值在预设差值内,则将所述全局图片类别和所述图片主题类别作为所述待分类图片的图片分类结果。
本发明实施例通过获取待分类图片的全局图片类别和图片主题类别,并对全局图片类别和图片主题类别进行综合判别,确定待分类图片的分类结果。解决了现有技术中只通过视觉特征得到全局图片类别,从而确定分类结果所导致图片分类不准确的问题,考虑了图片的局部特征对图片分类的影响,提高图片分类精度。
实施例四
图5是本发明实施例四提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备500的框图。图5显示的计算机设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备500以通用计算设备的形式表现。计算机设备500的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备500典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器505。计算机设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备500也可以与一个或多个外部设备509(例如键盘、指向设备、显示器510等)通信,还可与一个或者多个使得用户能与该计算机设备500交互的设备通信,和/或与使得该计算机设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且,计算机设备500还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器512通过总线503与计算机设备500的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种图片分类方法,包括:
根据待分类图片的全局信息,确定待分类图片的全局图片类别;
根据待分类图片的局部信息,确定待分类图片的图片主题类别;
根据全局图片类别和图片主题类别,确定待分类图片的图片分类结果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种图片分类方法,包括:
根据待分类图片的全局信息,确定待分类图片的全局图片类别;
根据待分类图片的局部信息,确定待分类图片的图片主题类别;
根据全局图片类别和图片主题类别,确定待分类图片的图片分类结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (11)
1.一种图片分类方法,其特征在于,包括:
根据待分类图片的全局信息,确定所述待分类图片的全局图片类别;
根据所述待分类图片的局部信息,确定所述待分类图片的图片主题类别;
根据所述全局图片类别和所述图片主题类别,确定所述待分类图片的图片分类结果。
2.根据权利要求1所述的方法,其特征在于,根据待分类图片的局部信息,确定所述待分类图片的图片主题类别,包括:
根据待分类图片的局部信息,确定所述待分类图片的主题语义文本;
根据所述主题语义文本,得到所述待分类图片的图片主题类别。
3.根据权利要求2所述的方法,其特征在于,根据待分类图片的局部信息,确定所述待分类图片的主题语义文本,包括:
将所述待分类图片划分为至少两个局部区域图片;
将当前局部区域图片以及上一局部区域图片的主题语义文本输入到图片主题语义模型中的局部特征提取模块,确定叠加局部区域的嵌入向量;其中,所述叠加局部区域包括所述当前局部区域图片以及在所述当前局部区域图片之前各局部区域图片;
将所述嵌入向量输入到所述图片主题语义模型中的语义信息描述模块,确定所述叠加局部区域的主题语义文本。
4.根据权利要求2所述的方法,其特征在于,根据所述主题语义文本,得到所述待分类图片的图片主题类别,包括:
将所述主题语义文本输入到预先训练的语言预训练模型中,得到标准主题语义文本;
将所述标准主题语义文本输入到预先训练的文本分类模型中,得到所述待分类图片的图片主题类别。
5.根据权利要求1所述的方法,其特征在于,根据所述全局图片类别和所述图片主题类别,确定所述待分类图片的图片分类结果,包括:
根据确定所述全局图片类别的图片分类神经网络模型,得到所述全局图片类别的第一概率;
根据所述图片主题语义模型,得到所述图片主题类别的第二概率;
比较所述第一概率和所述第二概率,确定所述待分类图片的图片分类结果。
6.根据权利要求5所述的方法,其特征在于,所述图片分类神经网络模型为基于深度学习构造的图片分类神经网络模型。
7.根据权利要求5所述的方法,其特征在于,在根据所述图片主题语义模型,得到所述图片主题类别的第二概率之后,还包括:
根据所述第一概率、所述第二概率以及预设的概率权重,确定所述待分类图片的第一概率权重结果和第二概率权重结果;
比较所述第一概率权重结果和第二概率权重结果,确定所述待分类图片的图片分类结果。
8.根据权利要求5所述的方法,其特征在于,比较所述第一概率和所述第二概率,确定所述待分类图片的图片分类结果,包括:
若所述第一概率和所述第二概率的差值超过预设差值,则将所述第一概率和所述第二概率中概率值大的对应类别作为所述待分类图片的图片分类结果;
若所述第一概率和所述第二概率的差值在预设差值内,则将所述全局图片类别和所述图片主题类别作为所述待分类图片的图片分类结果。
9.一种图片分类装置,其特征在于,包括:
全局类别确定模块,用于根据待分类图片的全局信息,确定所述待分类图片的全局图片类别;
主题类别确定模块,用于根据待分类图片的局部信息,确定所述待分类图片的图片主题类别;
分类结果确定模块,用于根据所述全局图片类别和所述图片主题类别,确定所述待分类图片的图片分类结果。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的图片分类方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的图片分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772581.6A CN111931840A (zh) | 2020-08-04 | 2020-08-04 | 一种图片分类的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772581.6A CN111931840A (zh) | 2020-08-04 | 2020-08-04 | 一种图片分类的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111931840A true CN111931840A (zh) | 2020-11-13 |
Family
ID=73306676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010772581.6A Pending CN111931840A (zh) | 2020-08-04 | 2020-08-04 | 一种图片分类的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931840A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814147A (zh) * | 2010-04-12 | 2010-08-25 | 中国科学院自动化研究所 | 一种实现场景图像的分类方法 |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
WO2017096758A1 (zh) * | 2015-12-11 | 2017-06-15 | 腾讯科技(深圳)有限公司 | 图像分类方法、电子设备和存储介质 |
CN108319907A (zh) * | 2018-01-26 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN109472209A (zh) * | 2018-10-12 | 2019-03-15 | 咪咕文化科技有限公司 | 一种图像识别方法、装置和存储介质 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN111091140A (zh) * | 2019-11-20 | 2020-05-01 | 南京旷云科技有限公司 | 目标分类方法、装置及可读存储介质 |
-
2020
- 2020-08-04 CN CN202010772581.6A patent/CN111931840A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814147A (zh) * | 2010-04-12 | 2010-08-25 | 中国科学院自动化研究所 | 一种实现场景图像的分类方法 |
WO2017096758A1 (zh) * | 2015-12-11 | 2017-06-15 | 腾讯科技(深圳)有限公司 | 图像分类方法、电子设备和存储介质 |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
CN108319907A (zh) * | 2018-01-26 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN109472209A (zh) * | 2018-10-12 | 2019-03-15 | 咪咕文化科技有限公司 | 一种图像识别方法、装置和存储介质 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN111091140A (zh) * | 2019-11-20 | 2020-05-01 | 南京旷云科技有限公司 | 目标分类方法、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858555B (zh) | 基于图像的数据处理方法、装置、设备及可读存储介质 | |
US11062090B2 (en) | Method and apparatus for mining general text content, server, and storage medium | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
CN109145680B (zh) | 一种获取障碍物信息的方法、装置、设备和计算机存储介质 | |
CN107832662B (zh) | 一种获取图片标注数据的方法和系统 | |
CN115035538B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
GB2571825A (en) | Semantic class localization digital environment | |
US11475588B2 (en) | Image processing method and device for processing image, server and storage medium | |
CN110232340B (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
US9766868B2 (en) | Dynamic source code generation | |
US9619209B1 (en) | Dynamic source code generation | |
CN109408829B (zh) | 文章可读性确定方法、装置、设备和介质 | |
US11842278B2 (en) | Object detector trained via self-supervised training on raw and unlabeled videos | |
US11822568B2 (en) | Data processing method, electronic equipment and storage medium | |
CN112149663A (zh) | 结合rpa和ai的图像文字的提取方法、装置及电子设备 | |
CN111291882A (zh) | 一种模型转换的方法、装置、设备和计算机存储介质 | |
CN109657127B (zh) | 一种答案获取方法、装置、服务器及存储介质 | |
CN111125550B (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
WO2021104274A1 (zh) | 图文联合表征的搜索方法、系统、服务器和存储介质 | |
CN113762455A (zh) | 检测模型训练方法、单字检测方法、装置、设备及介质 | |
CN113239883A (zh) | 分类模型的训练方法、装置、电子设备以及存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
CN111931840A (zh) | 一种图片分类的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220916 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |