CN105354307A - 一种图像内容识别方法及装置 - Google Patents
一种图像内容识别方法及装置 Download PDFInfo
- Publication number
- CN105354307A CN105354307A CN201510753125.6A CN201510753125A CN105354307A CN 105354307 A CN105354307 A CN 105354307A CN 201510753125 A CN201510753125 A CN 201510753125A CN 105354307 A CN105354307 A CN 105354307A
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- classifier
- sorter
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 93
- 238000000605 extraction Methods 0.000 claims description 20
- 239000000463 material Substances 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 72
- 238000013507 mapping Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本发明公开了一种图像内容识别方法以装置,包括:提取待识别图像的CNN特征;将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。采用本发明实施例,可以提高图像识别的精确性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像内容识别方法及装置。
背景技术
随着互联网技术以及社交媒体的的发展,用户需要处理的图片越来越多,互联网与社交网络软件上存在大量用户上传的图片,这些图片大多数没有标注内容信息,例如:地理位置图片,知名的景点或者建筑图片等,导致用户无法确定这些图片是什么内容的图片或哪个地方的图片,因此需要一种识别这些图片的方法。
在现有技术方案中,首先抽取待识别图片的特征,然后在图像数据库中检索与待识别图片的特征最相似的若干特征数据,最后利用相似数据的相关网页文本来推断待是被图片的内容标签。但是,这种方法存在以下缺点:第一:依赖与待识别图片相关的网页文本数据,然而从文本数据中提取的内容标签包含有较多的噪声;第二:检索的图像数据库规模庞大,包含了较多的噪声,容易检索到内容相似但语义不同的图片,造成最终给出的标签不够准确;第三:识别出来的图片内容的范围较大,不够精确。
发明内容
本发明实施例提供一种图像内容识别方法及装置。通过两次相似度匹配计算对待识别图像进行标注,提高了图像识别的精确性。
本发明第一方面提供了一种图像内容识别方法,包括:
提取待识别图像的CNN特征;
将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签;
根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;
确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;
使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
在第一方面的第一种可能的实现方式中,所述每个图像分类器对应一个系数向量,所述根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值包括:
将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;
根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;
根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值包括:
将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;
将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。
结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述确定所述目标图像分类器中的每张图像与所述待识别图像的相似度包括:
获取所述目标图像分类器中每张图像的CNN特征;
将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量;
将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到所述相似度。
在第一方面的第四种可能的实现方式中,所述提取待识别图像的CNN特征之前,还包括:
提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签;
根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇;
根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签;
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签包括:
统计所述每个类簇中的图像的同一实体标签的个数;
根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签。
相应地,本发明第二方面提供了一种图像内容识别装置,包括:
第一提取模块,用于提取待识别图像的CNN特征;
概率计算模块,用于将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签;
分类器选取模块,用于根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;
图像选取模块,用于确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;
图像标注模块,用于使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
在第二方面的第一种可能的实现方式中,所述每个图像分类器对应一个系数向量,所述概率计算模块包括:
特征转化单元,用于将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;
特征计算单元,用于根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;
概率计算单元,用于根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述概率计算单元具体用于:
将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;
将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。
结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述图像选取模块具体用于:
获取所述目标图像分类器中每张图像的CNN特征;
将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量;
将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到所述相似度。
在第二方面的第四种可能的实现方式中,所述装置还包括:
第二提取模块,用于提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签;
图像分类模块,用于根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇;
标签确定模块,用于根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签。
结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述标签确定模块具体用于:
统计所述每个类簇中的图像的同一实体标签的个数;
根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签。
实施本发明实施例,首先提取待识别图像的CNN特征;其次将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;再次确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;最后使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。通过两次相似度匹配计算对待识别图像进行标注,提高了图像识别的精确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提出的一种图像内容识别方法的第一实施例的流程图;
图2是本发明提出的一种图像内容识别方法的第二实施例的流程图;
图3是本发明实施例提出的一种图像内容识别装置的结构示意图;
图4是本发明实施例提出装置中概率计算模块的结构示意图;
图5是本发明实施例提出的另一种图像内容识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明提出的一种图像内容识别方法的第一实施例的流程图。如图所示,本发明实施例中的方法包括:
S101,提取待识别图像的CNN特征。
具体实现中,CNN(convolutionneuralnetwork,卷积神经网络)为一种基于神经元局域连接的神经网络并行处理器,CNN的基本结构包括特征提取层和特征映射层。在特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征,一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;在特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等,特征映射结构使用影响函数核较小的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
S102,将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签。
具体实现中,每个图像分类器对应一个特征向量,一个类簇可以对应一个或多个类型标签,一张图像可以对应一个或多个实体标签。可以将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。进一步的,将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。需要说明的是,如果待识别图像输入到图像分类器集合中,图像分类器的概率值最大,则表示该待识别图像与该图像分类器中的图像相似度最高;图像分类器的概率值最小,则表示该待识别图像与该图像分类器中的图像相似度最低。
例如:假设图像分类器集合中包括N个图像分类器,每个图像分类器模型为向量wk,输入待识别图像的向量x属于第k个图像分类器模型的概率值,计算公式如下:
S103,根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器。
具体实现中,可以将每个图像分类器输出的概率值进行对比,并依次对概率值从大到小进行排序,选取排在前面的至少一个概率值,并将该至少一个概率值对应的图像分类器作为目标图像分类器。
S104,确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像。
具体实现中,可以首先将所述待识别图像的CNN特征转化为所述待识别图像的特征向量,并获取所述目标图像分类器中的每张图像的CNN特征,将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量,将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到向量内积,该向量内积越大,相似度越高;最后对目标图像分类器中的每张图像与待识别图像的相似度进行对比并从大到小依次排序,选取排在前面的多个相似度,并将该多个相似度分别对应的图像作为目标图像。
S105,使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
例如,图像分类器集合中包括类簇1、类簇2以及类簇3,类簇1、类簇2以及类簇3分别对应类型标签1、类型标签2以及类型标签3,类簇1中包括图像1、图像2以及图像3,类簇2中包括图像4、图像5,类簇3中包括图像6、图像7以及图像8,图像1至图像8分别对应实体标签1至实体标签8。其中,根据图像分类器输出的概率值,选取类簇2以及类簇3,并确定待识别图像与类簇2中的图像5以及类簇3中的图像7相似度最高,则可以融合类型标签2以及类型标签3和图像5的实体标签5以及图像7的实体标签7,对所述待识别图像进行标注。
在本发明实施例中,首先提取待识别图像的CNN特征;其次将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;再次确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;最后使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。通过两次相似度匹配计算对待识别图像进行标注,提高了图像识别的精确性。
请参考图2,图2是本发明提出的一种图像内容识别方法的第二实施例的流程图。如图所示,本发明实施例中的方法包括:
S201,提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签。
具体实现中,可以首先选取热度较高的多个查询词构成下载字典,利用下载字典中的每个查询词通过网络爬虫集群在互联网上抓取相关的图像以及与该图像对应的文本信息,并将这些图像以及图像对应的文本信息存储在分布式文件系统中,采用并行CNN计算提取多张图像中的每张图像的CNN特征,并利用NLP(Neuro-LinguisticProgramming,自然语言处理)分词识别每张图片对应的文本信息得到所述每张图像的实体标签。
S202,根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇。
具体实现中,可以对同一查询词抓取到的图像的CNN特征进行K均值聚类,从而将所述多张图像进行分类得到多个类簇。其中,K均值聚类为将数据集中相似的数据成员进行分类组织的过程,该聚类方法先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类。
S203,根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签。
具体实现中,可以首先统计所述每个类簇中的图像的同一实体标签的个数;然后根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签,最后对每个类簇进行编号并利用并行机器学习平台训练LR(LogisticRegressionClassifier,分类算法)分类模型得到图像分类器集合。另外,可以对每个类簇中的同一实体标签进行排序,将个数排在前n位的实体标签作为该类簇的类型标签。
S204,提取待识别图像的CNN特征。
具体实现中,CNN(convolutionneuralnetwork,卷积神经网络)为一种基于神经元局域连接的神经网络并行处理器,CNN的基本结构包括特征提取层和特征映射层。在特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征,一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;在特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等,特征映射结构使用影响函数核较小的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
S205,将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签。
具体实现中,每个图像分类器对应一个特征向量,一个类簇可以对应一个或多个类型标签,一张图像可以对应一个或多个实体标签。将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。进一步的,可以将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。需要说明的是,如果待识别图像输入到图像分类器集合中,图像分类器的概率值最大,则表示该待识别图像与该图像分类器中的图像相似度最高;图像分类器的概率值最小,则表示该待识别图像与该图像分类器中的图像相似度最低。
例如:假设图像分类器集合中包括N个图像分类器,每个图像分类器模型为向量wk,输入待识别图像的向量x属于第k个图像分类器模型的概率值,计算公式如下:
S206,根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器。
具体实现中,可以将每个图像分类器输出的概率值进行对比,并依次对概率值从大到小进行排序,选取排在前面的至少一个概率值,并将该至少一个概率值对应的图像分类器作为目标图像分类器。
S207,确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像。
具体实现中,具体实现中,可以首先将所述待识别图像的CNN特征转化为所述待识别图像的特征向量,并获取所述目标图像分类器中的每张图像的CNN特征,将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量,将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到向量内积,该向量内积越大,相似度越高;最后对目标图像分类器中的每张图像与待识别图像的相似度进行对比并从大到小依次排序,选取排在前面的多个相似度,并将该多个相似度分别对应的图像作为目标图像。
S209,使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
例如,图像分类器集合中包括类簇1、类簇2以及类簇3,类簇1、类簇2以及类簇3分别对应类型标签1、类型标签2以及类型标签3,类簇1中包括图像1、图像2以及图像3,类簇2中包括图像4、图像5,类簇3中包括图像6、图像7以及图像8,图像1至图像8分别对应实体标签1至实体标签8。其中,根据图像分类器输出的概率值,选取类簇2以及类簇3,并确定待识别图像与类簇2中的图像5以及类簇3中的图像7相似度最高,则可以融合类型标签2以及类型标签3和图像5的实体标签5以及图像7的实体标签7,对所述待识别图像进行标注。
在本发明实施例中,首先提取待识别图像的CNN特征;其次将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;再次确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;最后使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。通过两次相似度匹配计算对待识别图像进行标注,提高了图像识别的精确性。
请参考图3,图3是本发明实施例提出的一种图像内容识别装置的结构示意图。如图所示,本发明实施例中的装置包括:
第一提取模块301,用于提取待识别图像的CNN特征。
具体实现中,CNN(convolutionneuralnetwork,卷积神经网络)为一种基于神经元局域连接的神经网络并行处理器,CNN的基本结构包括特征提取层和特征映射层。在特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征,一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;在特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等,特征映射结构使用影响函数核较小的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
概率计算模块302,用于将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签。
具体实现中,如图4所示,概率计算模块302可以进一步包括:
特征转化单元401,用于将所述待识别图像的CNN特征转化为所述待识别图像的特征向量,其中,每个图像分类器对应一个特征向量。
特征计算单元402,用于根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积。
概率计算单元403,用于根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。
进一步的,可以将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。需要说明的是,如果待识别图像输入到图像分类器集合中,图像分类器的概率值最大,则表示该待识别图像与该图像分类器中的图像相似度最高;图像分类器的概率值最小,则表示该待识别图像与该图像分类器中的图像相似度最低。并且一个类簇可以对应一个或多个类型标签,一张图像可以对应一个或多个实体标签。
例如:假设图像分类器集合中包括N个图像分类器,每个图像分类器模型为向量wk,输入待识别图像的向量x属于第k个图像分类器模型的概率值,计算公式如下:
分类器选取模块303,用于根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器。
具体实现中,可以将每个图像分类器输出的概率值进行对比,并依次对概率值从大到小进行排序,选取排在前面的至少一个概率值,并将该至少一个概率值对应的图像分类器作为目标图像分类器。
图像选取模块304,用于确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像。
具体实现中,可以首先将所述待识别图像的CNN特征转化为所述待识别图像的特征向量,并获取所述目标图像分类器中的每张图像的CNN特征,将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量,将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到向量内积,该向量内积越大,相似度越高;最后对目标图像分类器中的每张图像与待识别图像的相似度进行对比并从大到小依次排序,选取排在前面的多个相似度,并将该多个相似度分别对应的图像作为目标图像。
图像标注模块305,用于使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
例如,图像分类器集合中包括类簇1、类簇2以及类簇3,类簇1、类簇2以及类簇3分别对应类型标签1、类型标签2以及类型标签3,类簇1中包括图像1、图像2以及图像3,类簇2中包括图像4、图像5,类簇3中包括图像6、图像7以及图像8,图像1至图像8分别对应实体标签1至实体标签8。其中,根据图像分类器输出的概率值,选取类簇2以及类簇3,并确定待识别图像与类簇2中的图像5以及类簇3中的图像7相似度最高,则可以融合类型标签2以及类型标签3和图像5的实体标签5以及图像7的实体标签7,对所述待识别图像进行标注。
可选的,如图3所示,本发明实施例中的装置还可以进一步包括:
第二提取模块306,用于提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签。
具体实现中,可以首先选取热度较高的多个查询词构成下载字典,利用下载字典中的每个查询词通过网络爬虫集群在互联网上抓取相关的图像以及与该图像对应的文本信息,并将这些图像以及图像对应的文本信息存储在分布式文件系统中,采用并行CNN计算提取多张图像中的每张图像的CNN特征,并利用NLP(Neuro-LinguisticProgramming,自然语言处理)分词识别每张图片对应的文本信息得到所述每张图像的实体标签。
图像分类模块307,用于根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇。
具体实现中,可以对同一查询词抓取到的图像的CNN特征进行K均值聚类,从而将所述多张图像进行分类得到多个类簇。其中,K均值聚类为将数据集中相似的数据成员进行分类组织的过程,该聚类方法先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类。
标签确定模块308,用于根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签。
具体实现中,可以首先统计所述每个类簇中的图像的同一实体标签的个数;然后根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签,最后对每个类簇进行编号并利用并行机器学习平台训练LR(LogisticRegressionClassifier,分类算法)分类模型得到图像分类器集合。另外,可以对每个类簇中的同一实体标签进行排序,将个数排在前n位的实体标签作为该类簇的类型标签。
在本发明实施例中,首先提取待识别图像的CNN特征;然后将待识别图像输入到预建的图像分类器集合中,并根据待识别图像的CNN特征获取图像分类器集合中每个图像分类器输出的概率值,根据每个图像分类器输出的概率值,选取多个图像集合中概率值最高的图像分类器作为目标图像分类器;其次确定目标图像分类器中的每个类簇中的每张图像与待识别图像的相似度,并选取目标图像分类器中的每个类簇中与待识别图像的相似度最高的图像作为目标图像;最后使用目标图像分类器中的每个类簇对应的类型标签以及目标图像分类器中的每个类簇中的目标图像对应的实体标签,对待识别图像进行标注。通过两次相似度匹配计算对待识别图像进行标注,提高了图像识别的精确性。
请参考图5,图5是本发明实施例提出的另一种图像内容识别装置的结构示意图。如图所示,该装置可以包括:至少一个处理器501,例如CPU,至少一个接收器503,至少一个存储器504,至少一个发送器505,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,本发明实施例中装置的接收器503和发送器505可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他节点设备进行信令或数据的通信。存储器504可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。存储器504中存储一组程序代码,且处理器用于调用存储器中存储的程序代码,用于执行以下操作:
提取待识别图像的CNN特征;
将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签;
根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;
确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;
使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
其中,处理器501还可以执行如下操作步骤:
将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;
根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;
根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。
其中,处理器501还可以执行如下操作步骤:
将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;
将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。
其中,处理器501还可以执行如下操作步骤:
获取所述目标图像分类器中每张图像的CNN特征;
将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量;
将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到所述相似度。
其中,处理器501还可以执行如下操作步骤:
提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签;
根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇;
根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签。
其中,处理器501还可以执行如下操作步骤:
统计所述每个类簇中的图像的同一实体标签的个数;
根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-OnlyMemory,简称:ROM)、随机存取器(英文:RandomAccessMemory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种图像内容识别方法,其特征在于,所述方法包括:
提取待识别图像的CNN特征;
将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签;
根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;
确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;
使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
2.如权利要求1所述的方法,其特征在于,所述每个图像分类器对应一个系数向量,所述根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值包括:
将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;
根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;
根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。
3.如权利要求2所述的方法,其特征在于,所述根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值包括:
将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;
将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。
4.如权利要求2所述的方法,其特征在于,所述确定所述目标图像分类器中的每张图像与所述待识别图像的相似度包括:
获取所述目标图像分类器中每张图像的CNN特征;
将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量;
将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到所述相似度。
5.如权利要求1所述的方法,其特征在于,所述提取待识别图像的CNN特征之前,还包括:
提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签;
根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇;
根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签。
6.如权利要求5所述的方法,其特征在于,所述根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签包括:
统计所述每个类簇中的图像的同一实体标签的个数;
根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签。
7.一种图像内容识别装置,其特征在于,所述装置包括:
第一提取模块,用于提取待识别图像的CNN特征;
概率计算模块,用于将所述待识别图像输入到预建的图像分类器集合中,并根据所述待识别图像的CNN特征获取所述图像分类器集合中每个图像分类器输出的概率值,所述每个图像分类器包括一个类簇,所述类簇对应类型标签,所述每个类簇包括多个图像,所述多个图像中的每张图像对应实体标签;
分类器选取模块,用于根据所述每个图像分类器输出的概率值,从所述图像分类器集合中选取至少一个图像分类器作为目标图像分类器;
图像选取模块,用于确定所述目标图像分类器中的每张图像与所述待识别图像的相似度,并根据所述相似度从所述目标图像分类器中选取多张图像作为目标图像;
图像标注模块,用于使用所述目标图像分类器中的类簇对应的类型标签以及所述目标图像分类器中的所述目标图像对应的实体标签,对所述待识别图像进行标注。
8.如权利要求7所述的装置,其特征在于,所述每个图像分类器对应一个系数向量,所述概率计算模块包括:
特征转化单元,用于将所述待识别图像的CNN特征转化为所述待识别图像的特征向量;
特征计算单元,用于根据所述每个图像分类器的系数向量与所述待识别图像的特征向量,计算所述每个图像分类器与所述待识别图像的向量内积;
概率计算单元,用于根据所述每个图像分类器与所述待识别图像的向量内积,计算所述每个图像分类器输出的概率值。
9.如权利要求8所述的装置,其特征在于,所述概率计算单元具体用于:
将所述每个图像分类器与所述待识别图像的向量内积映射到正实数域得到指数值,并计算指数值之和;
将所述目标图像分类器与所述待识别图像的指数值除以所述指数值之和,计算得到所述目标图像分类器输出的概率值。
10.如权利要求8所述的装置,其特征在于,所述图像选取模块具体用于:
获取所述目标图像分类器中每张图像的CNN特征;
将所述目标图像分类器中的每张图像的CNN特征转化为所述每张图像的特征向量;
将所述目标图像分类器中的每张图像的特征向量乘以所述待识别图像的特征向量得到所述相似度。
11.如权利要求7所述的装置,其特征在于,所述装置还包括:
第二提取模块,用于提取多张图像中的每张图像的CNN特征,并对所述每张图像对应的文本信息进行识别得到所述每张图像的实体标签;
图像分类模块,用于根据所述每张图像的CNN特征,将所述多张图像进行分类得到多个类簇;
标签确定模块,用于根据所述多个类簇中每个类簇中的图像的实体标签,确定所述每个类簇的类型标签。
12.如权利要求11所述的装置,其特征在于,所述标签确定模块具体用于:
统计所述每个类簇中的图像的同一实体标签的个数;
根据所述每个类簇中的图像的同一实体标签的个数,选取目标实体标签作为所述所述每个类簇的类型标签。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510753125.6A CN105354307B (zh) | 2015-11-06 | 2015-11-06 | 一种图像内容识别方法及装置 |
PCT/CN2016/078568 WO2017075939A1 (zh) | 2015-11-06 | 2016-04-06 | 一种图像内容识别方法及装置 |
US15/701,136 US10438091B2 (en) | 2015-11-06 | 2017-09-11 | Method and apparatus for recognizing image content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510753125.6A CN105354307B (zh) | 2015-11-06 | 2015-11-06 | 一种图像内容识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105354307A true CN105354307A (zh) | 2016-02-24 |
CN105354307B CN105354307B (zh) | 2021-01-15 |
Family
ID=55330279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510753125.6A Active CN105354307B (zh) | 2015-11-06 | 2015-11-06 | 一种图像内容识别方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10438091B2 (zh) |
CN (1) | CN105354307B (zh) |
WO (1) | WO2017075939A1 (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383891A (zh) * | 2016-09-22 | 2017-02-08 | 重庆理工大学 | 一种基于深度哈希的医学图像分布式检索方法 |
WO2017075939A1 (zh) * | 2015-11-06 | 2017-05-11 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
CN107291737A (zh) * | 2016-04-01 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 敏感图像识别方法及装置 |
CN107766373A (zh) * | 2016-08-19 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 图片所属类目的确定方法及其系统 |
WO2018068664A1 (zh) * | 2016-10-13 | 2018-04-19 | 腾讯科技(深圳)有限公司 | 网络信息识别方法和装置 |
CN108304871A (zh) * | 2018-01-30 | 2018-07-20 | 努比亚技术有限公司 | 图片分类方法、终端及计算机可读存储介质 |
CN108319985A (zh) * | 2018-02-07 | 2018-07-24 | 北京航空航天大学 | 图像语义标注的方法和装置 |
CN108399413A (zh) * | 2017-02-04 | 2018-08-14 | 清华大学 | 一种图片拍摄区域识别及地理定位方法及装置 |
CN109034048A (zh) * | 2018-07-20 | 2018-12-18 | 苏州中德宏泰电子科技股份有限公司 | 人脸识别算法模型切换方法与装置 |
CN109949281A (zh) * | 2019-03-11 | 2019-06-28 | 哈尔滨工业大学(威海) | 一种胃镜图像质量检测方法及装置 |
CN110019903A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 图像处理引擎组件的生成方法、搜索方法及终端、系统 |
CN110134815A (zh) * | 2019-04-15 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN110297933A (zh) * | 2019-07-01 | 2019-10-01 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习的主题标签推荐方法及工具 |
CN110704657A (zh) * | 2019-09-27 | 2020-01-17 | 网易(杭州)网络有限公司 | 图像标签的推荐方法、装置及电子设备 |
CN110704650A (zh) * | 2019-09-29 | 2020-01-17 | 携程计算机技术(上海)有限公司 | Ota图片标签的识别方法、电子设备和介质 |
US20200034656A1 (en) * | 2017-09-08 | 2020-01-30 | Tencent Technology (Shenzhen) Company Limited | Information recommendation method, computer device, and storage medium |
CN110807486A (zh) * | 2019-10-31 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 类别标签的生成方法、装置、电子设备及存储介质 |
CN110880011A (zh) * | 2018-09-05 | 2020-03-13 | 宏达国际电子股份有限公司 | 影像切割方法、装置及其非暂态电脑可读取媒体 |
CN111126396A (zh) * | 2019-12-25 | 2020-05-08 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN111325225A (zh) * | 2018-12-13 | 2020-06-23 | 富泰华工业(深圳)有限公司 | 图像分类方法、电子装置和存储介质 |
CN112784087A (zh) * | 2021-01-29 | 2021-05-11 | 平安科技(深圳)有限公司 | 图像检索方法、装置、计算机设备及存储介质 |
CN113177498A (zh) * | 2021-05-10 | 2021-07-27 | 清华大学 | 基于物体真实大小和物体特征的图像识别方法和装置 |
CN113590861A (zh) * | 2020-04-30 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种图片信息的处理方法、装置及电子设备 |
CN113610905A (zh) * | 2021-08-02 | 2021-11-05 | 北京航空航天大学 | 基于子图像匹配的深度学习遥感图像配准方法及应用 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959328B (zh) * | 2017-05-27 | 2021-12-21 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
RU2652461C1 (ru) | 2017-05-30 | 2018-04-26 | Общество с ограниченной ответственностью "Аби Девелопмент" | Дифференциальная классификация с использованием нескольких нейронных сетей |
EP3457324A1 (en) * | 2017-09-15 | 2019-03-20 | Axis AB | Method for locating one or more candidate digital images being likely candidates for depicting an object |
CN108009228B (zh) * | 2017-11-27 | 2020-10-09 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
US10783400B2 (en) * | 2018-04-06 | 2020-09-22 | Dropbox, Inc. | Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks |
CN111046695B (zh) * | 2018-10-11 | 2024-03-05 | 华为技术有限公司 | 图像识别方法、设备及系统 |
US11151425B2 (en) | 2018-11-13 | 2021-10-19 | Nielsen Consumer Llc | Methods and apparatus to perform image analyses in a computing environment |
WO2020152487A1 (en) * | 2018-11-13 | 2020-07-30 | The Nielsen Compy (Us), Llc | Methods and apparatus to perform image analyses in a computing environment |
US10832096B2 (en) * | 2019-01-07 | 2020-11-10 | International Business Machines Corporation | Representative-based metric learning for classification and few-shot object detection |
CN109784415B (zh) * | 2019-01-25 | 2021-02-26 | 北京地平线机器人技术研发有限公司 | 图像识别方法及装置、训练卷积神经网络的方法及装置 |
CN111858843B (zh) * | 2019-04-30 | 2023-12-05 | 北京嘀嘀无限科技发展有限公司 | 一种文本分类方法及装置 |
US11610142B2 (en) * | 2019-05-28 | 2023-03-21 | Ati Technologies Ulc | Safety monitor for image misclassification |
US11210199B2 (en) | 2019-05-31 | 2021-12-28 | Ati Technologies Ulc | Safety monitor for invalid image transform |
CN110390352A (zh) * | 2019-06-26 | 2019-10-29 | 华中科技大学 | 一种基于相似性哈希的图像暗数据价值评估方法 |
US11507996B1 (en) | 2020-01-09 | 2022-11-22 | Amazon Technologies, Inc. | Catalog item selection based on visual similarity |
CN112597328B (zh) * | 2020-12-28 | 2022-02-22 | 推想医疗科技股份有限公司 | 标注方法、装置、设备及介质 |
CN112712401A (zh) * | 2021-03-29 | 2021-04-27 | 北京妃灵科技有限公司 | 一种多维度箱包价格获取方法、装置及系统 |
CN113255665B (zh) * | 2021-06-04 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 一种目标文本提取方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060239515A1 (en) * | 2005-04-21 | 2006-10-26 | Microsoft Corporation | Efficient propagation for face annotation |
CN101661559A (zh) * | 2009-09-16 | 2010-03-03 | 中国科学院计算技术研究所 | 一种数字图像训练和检测方法 |
CN103207879A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 图像索引的生成方法及设备 |
CN103678661A (zh) * | 2013-12-24 | 2014-03-26 | 中国联合网络通信集团有限公司 | 图像搜索方法和终端 |
CN104572735A (zh) * | 2013-10-23 | 2015-04-29 | 华为技术有限公司 | 一种图片标注词推荐方法及装置 |
US20150142708A1 (en) * | 2011-06-17 | 2015-05-21 | Google Inc. | Retrieval of similar images to a query image |
CN104834693A (zh) * | 2015-04-21 | 2015-08-12 | 上海交通大学 | 基于深度搜索的视觉图像检索方法及系统 |
CN104991959A (zh) * | 2015-07-21 | 2015-10-21 | 北京京东尚科信息技术有限公司 | 一种基于内容检索相同或相似图像的方法与系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8009921B2 (en) * | 2008-02-19 | 2011-08-30 | Xerox Corporation | Context dependent intelligent thumbnail images |
US8712930B1 (en) * | 2010-08-09 | 2014-04-29 | Google Inc. | Encoding digital content based on models for predicting similarity between exemplars |
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
JP5732620B2 (ja) * | 2012-05-24 | 2015-06-10 | パナソニックIpマネジメント株式会社 | 画像処理装置及び画像処理方法 |
US9424279B2 (en) * | 2012-12-06 | 2016-08-23 | Google Inc. | Presenting image search results |
JP6332937B2 (ja) * | 2013-10-23 | 2018-05-30 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP6090286B2 (ja) * | 2014-10-31 | 2017-03-08 | カシオ計算機株式会社 | 機械学習装置、機械学習方法、分類装置、分類方法、プログラム |
FR3030846B1 (fr) * | 2014-12-23 | 2017-12-29 | Commissariat Energie Atomique | Representation semantique du contenu d'une image |
US11120478B2 (en) * | 2015-01-12 | 2021-09-14 | Ebay Inc. | Joint-based item recognition |
CN104766343B (zh) * | 2015-03-27 | 2017-08-25 | 电子科技大学 | 一种基于稀疏表示的视觉目标跟踪方法 |
US9767386B2 (en) * | 2015-06-23 | 2017-09-19 | Adobe Systems Incorporated | Training a classifier algorithm used for automatically generating tags to be applied to images |
CN106354735A (zh) * | 2015-07-22 | 2017-01-25 | 杭州海康威视数字技术股份有限公司 | 一种图像中目标的检索方法和装置 |
CN105354307B (zh) * | 2015-11-06 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
-
2015
- 2015-11-06 CN CN201510753125.6A patent/CN105354307B/zh active Active
-
2016
- 2016-04-06 WO PCT/CN2016/078568 patent/WO2017075939A1/zh active Application Filing
-
2017
- 2017-09-11 US US15/701,136 patent/US10438091B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060239515A1 (en) * | 2005-04-21 | 2006-10-26 | Microsoft Corporation | Efficient propagation for face annotation |
CN101661559A (zh) * | 2009-09-16 | 2010-03-03 | 中国科学院计算技术研究所 | 一种数字图像训练和检测方法 |
US20150142708A1 (en) * | 2011-06-17 | 2015-05-21 | Google Inc. | Retrieval of similar images to a query image |
CN103207879A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 图像索引的生成方法及设备 |
CN104572735A (zh) * | 2013-10-23 | 2015-04-29 | 华为技术有限公司 | 一种图片标注词推荐方法及装置 |
CN103678661A (zh) * | 2013-12-24 | 2014-03-26 | 中国联合网络通信集团有限公司 | 图像搜索方法和终端 |
CN104834693A (zh) * | 2015-04-21 | 2015-08-12 | 上海交通大学 | 基于深度搜索的视觉图像检索方法及系统 |
CN104991959A (zh) * | 2015-07-21 | 2015-10-21 | 北京京东尚科信息技术有限公司 | 一种基于内容检索相同或相似图像的方法与系统 |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017075939A1 (zh) * | 2015-11-06 | 2017-05-11 | 腾讯科技(深圳)有限公司 | 一种图像内容识别方法及装置 |
US10438091B2 (en) | 2015-11-06 | 2019-10-08 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for recognizing image content |
CN107291737A (zh) * | 2016-04-01 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 敏感图像识别方法及装置 |
CN107291737B (zh) * | 2016-04-01 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 敏感图像识别方法及装置 |
CN107766373A (zh) * | 2016-08-19 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 图片所属类目的确定方法及其系统 |
CN107766373B (zh) * | 2016-08-19 | 2021-07-20 | 阿里巴巴集团控股有限公司 | 图片所属类目的确定方法及其系统 |
CN106383891A (zh) * | 2016-09-22 | 2017-02-08 | 重庆理工大学 | 一种基于深度哈希的医学图像分布式检索方法 |
CN106383891B (zh) * | 2016-09-22 | 2019-04-23 | 重庆理工大学 | 一种基于深度哈希的医学图像分布式检索方法 |
WO2018068664A1 (zh) * | 2016-10-13 | 2018-04-19 | 腾讯科技(深圳)有限公司 | 网络信息识别方法和装置 |
US10805255B2 (en) | 2016-10-13 | 2020-10-13 | Tencent Technology (Shenzhen) Company Limited | Network information identification method and apparatus |
CN108399413A (zh) * | 2017-02-04 | 2018-08-14 | 清华大学 | 一种图片拍摄区域识别及地理定位方法及装置 |
CN108399413B (zh) * | 2017-02-04 | 2020-10-27 | 清华大学 | 一种图片拍摄区域识别及地理定位方法及装置 |
US11514260B2 (en) * | 2017-09-08 | 2022-11-29 | Tencent Technology (Shenzhen) Company Limited | Information recommendation method, computer device, and storage medium |
US20200034656A1 (en) * | 2017-09-08 | 2020-01-30 | Tencent Technology (Shenzhen) Company Limited | Information recommendation method, computer device, and storage medium |
CN110019903A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 图像处理引擎组件的生成方法、搜索方法及终端、系统 |
CN108304871A (zh) * | 2018-01-30 | 2018-07-20 | 努比亚技术有限公司 | 图片分类方法、终端及计算机可读存储介质 |
CN108319985A (zh) * | 2018-02-07 | 2018-07-24 | 北京航空航天大学 | 图像语义标注的方法和装置 |
CN108319985B (zh) * | 2018-02-07 | 2022-05-17 | 北京航空航天大学 | 图像语义标注的方法和装置 |
CN109034048A (zh) * | 2018-07-20 | 2018-12-18 | 苏州中德宏泰电子科技股份有限公司 | 人脸识别算法模型切换方法与装置 |
CN110880011A (zh) * | 2018-09-05 | 2020-03-13 | 宏达国际电子股份有限公司 | 影像切割方法、装置及其非暂态电脑可读取媒体 |
CN111325225A (zh) * | 2018-12-13 | 2020-06-23 | 富泰华工业(深圳)有限公司 | 图像分类方法、电子装置和存储介质 |
CN111325225B (zh) * | 2018-12-13 | 2023-03-21 | 富泰华工业(深圳)有限公司 | 图像分类方法、电子装置和存储介质 |
CN109949281A (zh) * | 2019-03-11 | 2019-06-28 | 哈尔滨工业大学(威海) | 一种胃镜图像质量检测方法及装置 |
CN110134815A (zh) * | 2019-04-15 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN110297933A (zh) * | 2019-07-01 | 2019-10-01 | 山东浪潮人工智能研究院有限公司 | 一种基于深度学习的主题标签推荐方法及工具 |
CN110704657A (zh) * | 2019-09-27 | 2020-01-17 | 网易(杭州)网络有限公司 | 图像标签的推荐方法、装置及电子设备 |
CN110704650A (zh) * | 2019-09-29 | 2020-01-17 | 携程计算机技术(上海)有限公司 | Ota图片标签的识别方法、电子设备和介质 |
CN110807486A (zh) * | 2019-10-31 | 2020-02-18 | 北京达佳互联信息技术有限公司 | 类别标签的生成方法、装置、电子设备及存储介质 |
CN111126396A (zh) * | 2019-12-25 | 2020-05-08 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN111126396B (zh) * | 2019-12-25 | 2023-08-22 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN113590861A (zh) * | 2020-04-30 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种图片信息的处理方法、装置及电子设备 |
CN112784087A (zh) * | 2021-01-29 | 2021-05-11 | 平安科技(深圳)有限公司 | 图像检索方法、装置、计算机设备及存储介质 |
CN113177498A (zh) * | 2021-05-10 | 2021-07-27 | 清华大学 | 基于物体真实大小和物体特征的图像识别方法和装置 |
CN113177498B (zh) * | 2021-05-10 | 2022-08-09 | 清华大学 | 基于物体真实大小和物体特征的图像识别方法和装置 |
CN113610905A (zh) * | 2021-08-02 | 2021-11-05 | 北京航空航天大学 | 基于子图像匹配的深度学习遥感图像配准方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN105354307B (zh) | 2021-01-15 |
US10438091B2 (en) | 2019-10-08 |
WO2017075939A1 (zh) | 2017-05-11 |
US20170372169A1 (en) | 2017-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105354307A (zh) | 一种图像内容识别方法及装置 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN108304835A (zh) | 文字检测方法和装置 | |
CN111126396B (zh) | 图像识别方法、装置、计算机设备以及存储介质 | |
CN111967387A (zh) | 表单识别方法、装置、设备及计算机可读存储介质 | |
CN107085581A (zh) | 短文本分类方法和装置 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN107392311B (zh) | 序列切分的方法和装置 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
CN110968689A (zh) | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 | |
CN110110213A (zh) | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 | |
CN112966072A (zh) | 案件的预判方法、装置、电子装置和存储介质 | |
CN112541372B (zh) | 一种困难样本筛选方法及装置 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN113139382A (zh) | 命名实体识别方法及装置 | |
CN101295320B (zh) | 一种判定锚文本噪声级别的方法及系统 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
Loong et al. | Image‐based structural analysis for education purposes: A proof‐of‐concept study | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |