CN105718935A - 一种适宜于视觉大数据的词频直方图计算方法 - Google Patents
一种适宜于视觉大数据的词频直方图计算方法 Download PDFInfo
- Publication number
- CN105718935A CN105718935A CN201610049490.3A CN201610049490A CN105718935A CN 105718935 A CN105718935 A CN 105718935A CN 201610049490 A CN201610049490 A CN 201610049490A CN 105718935 A CN105718935 A CN 105718935A
- Authority
- CN
- China
- Prior art keywords
- visual
- word frequency
- word
- vision
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种适宜于视觉大数据的词频直方图计算方法,包括以下步骤,步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K?Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图。本发明采用Map?Reduce数据处理方法,对BoW模型进行可并行化分析,将BoW模型适用于视觉大数据的分析与处理。
Description
技术领域
本发明涉及一种适宜于视觉大数据的词频直方图计算方法,属于计算机视觉领域。
背景技术
计算机视觉领域的词袋模型(Bag of visual Words,BoW)是一种有效的表示视觉对象的方法,如。经典的词袋模型构建分为三步:第一步,提取特征点,利用特征提取算法,从图像中提取视觉词汇向量,这些向量代表的是图像中局部不变的特征点;第二步,将所有的视觉词汇向量集合在一起,利用K-Means聚类算法合并词义相近的视觉词汇,构造一个包含K个视觉单词向量的视觉词典;第三步,统计视觉词典中每个视觉单词向量出现的次数,从而将图像表示成为一个K维数值向量,即该图像的词频直方图。
伴随着互联网和社交网络的发展,视觉大数据越来越广泛,数据量的快速增长给经典的视觉词袋模型带来了挑战。由于百万张规模以上图像的处理和分析需要借助于计算机集群或云计算模式,而经典的视觉词袋模型仅适合于一台计算机。近年来Map-Reduce数据处理方法已经广泛的应用于大数据分析与处理,并且已有适合于大数据平台的K-Means聚类算法。通过分析词袋模型的三个步骤,将词袋模型应用于视觉大数据的一个关键问题就是如何解决大数据平台下计算每个视觉对象的词频直方图。
发明内容
为了解决上述技术问题,本发明提供了一种适宜于视觉大数据的词频直方图计算方法。
为了达到上述目的,本发明所采用的技术方案是:
一种适宜于视觉大数据的词频直方图计算方法,其特征在于:包括以下步骤,
步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];
其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim(Ck)=v;
步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;
21)读取视觉词典和源数据集,将视觉词典分发到集群的每个Worker点,使每个Worker点都有一份视觉词典的拷贝;将源数据集Map到每个Worker点,使每个Worker点都有一份相互不同的源数据集分片;
22)在每个Worker上面分别计算Di到Ck的欧式距离,并比较欧式距离的大小,得到最小欧式距离的索引k;
23)对步22中的结果做一个Reduce,统计对应每个图像,Ck出现的次数,得到每个Ck的词频,从而得到对每张图像的词频直方图。
2、根据权利要求1所述的一种适宜于视觉大数据的词频直方图计算方法,其特征在于:词频的计算公式为,
Fk=Tk/K
其中,Fk为Ck的词频,Tk为Ck出现的次数。
本发明所达到的有益效果:本发明通过对经典BoW模型的分析和改进,提出一种适宜于视觉大数据的词频直方图计算方法,采用Map-Reduce数据处理方法,对BoW模型进行可并行化分析,将BoW模型适用于视觉大数据的分析与处理;该方法可用于计算大规模视觉数据的词频直方图,从而将经典BoW模型应用于大规模视觉计算领域;该方法可和大规模机器学习算法组合使用,应用于计算机视觉领域如:视频分类、行为识别和分类。
附图说明
图1为本发明的逻辑框图。
图2为具体实施例的流程图。
图3为计算视觉词汇向量所属视觉单词向量的逻辑框图。
图4为统计词频的逻辑框图。
图5为具体实施例的直方图表示。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种适宜于视觉大数据的词频直方图计算方法,包括以下步骤:
步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];
其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim(Ck)=v。
步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;
21)读取视觉词典和源数据集,将视觉词典分发到集群的每个Worker点,使每个Worker点都有一份视觉词典的拷贝;将源数据集Map到每个Worker点,使每个Worker点都有一份相互不同的源数据集分片;
22)在每个Worker上面分别计算Di到Ck的欧式距离,并比较欧式距离的大小,得到最小欧式距离的索引k;
23)对步22中的结果做一个Reduce,统计对应每个图像,Ck出现的次数,得到每个Ck的词频,从而得到对每张图像的词频直方图;
词频的计算公式为,
Fk=Tk/K
其中,Fk为Ck的词频,Tk为Ck出现的次数。
下面以N张图像为例,如图2所示,利用特征提取算法,将图像Ij表示为若干特征点的集合,即若干个视觉词汇向量集合 为图像Ij的第l个视觉词汇向量,l∈[1,n],n为图像Ij的视觉词汇向量的个数;定义一个图像集M=[A1,...,Aj,...,AN],表示N张图像的视觉词汇向量集合,即上述的源数据集,j∈[1,N]为图像的id;利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK]。词频直方图计算方法的详细步骤如下:
1、读入图像集M和视觉词典C,将C分发到(Broadcast)集群中的每个Worker点,使得每个Worker点都有一份C;将图像集Map到每个Worker点,每个Worker点收到图像集M的一部分,;假设集群中有W个Worker点,第w个Worker点中含有数据C和Mw,其中
2、在每个Worker点中计算Mw中每个视觉词汇向量到Ck的欧式距离,并比较欧式距离的大小,求出欧式距离最小的索引k。具体解释如图3所示:
A1、定义 则欧式距离为其中表示一个视觉词汇,表示一个视觉单词,t∈[1,v];
计算每个视觉词汇向量到Ck(k=1,2,...,K)的欧式距离
A2、比较欧式距离,求得最小欧式距离所对应的索引k,则视觉词汇向量归于视觉单词向量Ck。
A3、重复A1、A2两个步骤,依次求得Ij中所有视觉词汇向量归于的视觉单词向量,将图像id与索引k生成一个Map-Reduce<key,value>模式的映射<id,k>。
A4、对<id,k>做Reduce操作,将相同id所对应的k放入到同一集合中即生成<id,Seq(Ck)>,Seq(Ck)表示同一个图像Ij中视觉词汇向量所对应视觉单词向量的集合。
3、统计图像Ij中,Ck(k=1,2,...,K)出现的次数Tk,计算出词频Fk,从而将图像Ij表示成为一个K维数值向量,则对应Ij可表示为Fk(k=1,2,...,K),其中Fk满足具体解释如图4所示:
B1、将<id,Seq(Ck)>按照id Map到Worker点,对于相同的id,同时做以下操作:统计Seq(Ck)的个数K,将Seq(Ck)做Map操作,对应每个Ck映射成<Ck,1>。
B2、按照Ck做累加,统计Ck出现的次数Tk,将Tk除以K,得到图像Ij对应每个视觉单词向量的词频,从而计算出每个的词频直方图,具体结果如图5所示,为了方便将K实例化4。
上述方法采用Map-Reduce数据处理方法,对BoW模型进行可并行化分析,将BoW模型适用于视觉大数据的分析与处理。该方法可用于计算大规模视觉数据的词频直方图,从而将经典BoW模型应用于大规模视觉计算领域;可和大规模机器学习算法组合使用,应用于计算机视觉领域如:视频分类、行为识别和分类。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (2)
1.一种适宜于视觉大数据的词频直方图计算方法,其特征在于:包括以下步骤,
步骤一,利用特征提取算法,从图像中提取视觉词汇向量,将所有视觉词汇向量集合在一起形成源数据集D=[D1,D2,...,Dm],利用K-Means算法对视觉词汇向量进行聚类,生成视觉词典C=[C1,C2,...,CK];
其中,Di为第i个视觉词汇向量,i∈[1,m],m为视觉词汇向量的个数,dim(Di)=v,dim()表示维度,Ck为视觉词典中的第k个视觉单词向量,k∈[1,K],K为视觉单词向量的个数,dim(Ck)=v;
步骤二,统计视觉词典中视觉单词向量的词频,完成词频直方图;
21)读取视觉词典和源数据集,将视觉词典分发到集群的每个Worker点,使每个Worker点都有一份视觉词典的拷贝;将源数据集Map到每个Worker点,使每个Worker点都有一份相互不同的源数据集分片;
22)在每个Worker上面分别计算Di到Ck的欧式距离,并比较欧式距离的大小,得到最小欧式距离的索引k;
23)对步22中的结果做一个Reduce,统计对应每个图像,Ck出现的次数,得到每个Ck的词频,从而得到对每张图像的词频直方图。
2.根据权利要求1所述的一种适宜于视觉大数据的词频直方图计算方法,其特征在于:词频的计算公式为,
Fk=Tk/K
其中,Fk为Ck的词频,Tk为Ck出现的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610049490.3A CN105718935A (zh) | 2016-01-25 | 2016-01-25 | 一种适宜于视觉大数据的词频直方图计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610049490.3A CN105718935A (zh) | 2016-01-25 | 2016-01-25 | 一种适宜于视觉大数据的词频直方图计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105718935A true CN105718935A (zh) | 2016-06-29 |
Family
ID=56154050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610049490.3A Pending CN105718935A (zh) | 2016-01-25 | 2016-01-25 | 一种适宜于视觉大数据的词频直方图计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718935A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156374A (zh) * | 2016-09-13 | 2016-11-23 | 华侨大学 | 一种基于视觉词典优化和查询扩展的图像检索方法 |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN106845536A (zh) * | 2017-01-09 | 2017-06-13 | 西北工业大学 | 一种基于图像缩放的并行聚类方法 |
CN107330083A (zh) * | 2017-07-03 | 2017-11-07 | 贵州大学 | 等宽直方图并行构建方法 |
CN111652309A (zh) * | 2020-05-29 | 2020-09-11 | 刘秀萍 | 视觉单词和短语共驱动的词袋模型图片分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5652898A (en) * | 1992-09-08 | 1997-07-29 | Hitachi, Ltd. | Dictionary memory for text processing using word frequency and word recency occurrence information |
CN103955707A (zh) * | 2014-05-04 | 2014-07-30 | 电子科技大学 | 一种基于深度层次特征学习的海量图像分类系统 |
CN104933445A (zh) * | 2015-06-26 | 2015-09-23 | 电子科技大学 | 一种基于分布式K-means的海量图像分类方法 |
CN105069434A (zh) * | 2015-08-12 | 2015-11-18 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
-
2016
- 2016-01-25 CN CN201610049490.3A patent/CN105718935A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5652898A (en) * | 1992-09-08 | 1997-07-29 | Hitachi, Ltd. | Dictionary memory for text processing using word frequency and word recency occurrence information |
CN103955707A (zh) * | 2014-05-04 | 2014-07-30 | 电子科技大学 | 一种基于深度层次特征学习的海量图像分类系统 |
CN104933445A (zh) * | 2015-06-26 | 2015-09-23 | 电子科技大学 | 一种基于分布式K-means的海量图像分类方法 |
CN105069434A (zh) * | 2015-08-12 | 2015-11-18 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
Non-Patent Citations (1)
Title |
---|
陈永权: "基于Hadoop的图像检索算法研究与实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156374A (zh) * | 2016-09-13 | 2016-11-23 | 华侨大学 | 一种基于视觉词典优化和查询扩展的图像检索方法 |
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
CN106845536A (zh) * | 2017-01-09 | 2017-06-13 | 西北工业大学 | 一种基于图像缩放的并行聚类方法 |
CN106845536B (zh) * | 2017-01-09 | 2019-12-27 | 西北工业大学 | 一种基于图像缩放的并行聚类方法 |
CN107330083A (zh) * | 2017-07-03 | 2017-11-07 | 贵州大学 | 等宽直方图并行构建方法 |
CN107330083B (zh) * | 2017-07-03 | 2020-06-16 | 贵州大学 | 等宽直方图并行构建方法 |
CN111652309A (zh) * | 2020-05-29 | 2020-09-11 | 刘秀萍 | 视觉单词和短语共驱动的词袋模型图片分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN105718935A (zh) | 一种适宜于视觉大数据的词频直方图计算方法 | |
Singha et al. | Hand gesture recognition using two-level speed normalization, feature selection and classifier fusion | |
CN107748858A (zh) | 一种基于级联卷积神经网络的多姿态眼睛定位方法 | |
CN110135427A (zh) | 用于识别图像中的字符的方法、装置、设备和介质 | |
JP7266674B2 (ja) | 画像分類モデルの訓練方法、画像処理方法及び装置 | |
CN105956560A (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
CN101493887B (zh) | 基于半监督学习和哈希索引的眉毛图像分割方法 | |
Le et al. | A system for recognizing online handwritten mathematical expressions and improvement of structure analysis | |
Liu et al. | Facial landmark machines: A backbone-branches architecture with progressive representation learning | |
CN105005769A (zh) | 一种基于深度信息的手语识别方法 | |
CN103745200A (zh) | 一种基于词带模型的人脸图像识别方法 | |
CN107516316A (zh) | 一种在fcn中引入聚焦机制对静态人体图像进行分割的方法 | |
CN104156690B (zh) | 一种基于图像空间金字塔特征包的手势识别方法 | |
CN104834941A (zh) | 基于计算机输入下的稀疏自编码的脱机手写体识别方法 | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
CN109977958A (zh) | 一种离线手写体数学公式识别重构方法 | |
CN107103311A (zh) | 一种连续手语的识别方法及其装置 | |
CN109558855B (zh) | 一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN106919884A (zh) | 面部表情识别方法及装置 | |
Zhu et al. | Facial emotion recognition using a novel fusion of convolutional neural network and local binary pattern in crime investigation | |
Hai et al. | Automatic feature extraction for Vietnamese sign language recognition using support vector machine | |
CN105956563B (zh) | 基于多示例学习进行新闻图像中人脸标注的方法 | |
Avraam | Static gesture recognition combining graph and appearance features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160629 |