CN105718935A

CN105718935A - 一种适宜于视觉大数据的词频直方图计算方法

Info

Publication number: CN105718935A
Application number: CN201610049490.3A
Authority: CN
Inventors: 何军; 薛志云; 张丹阳
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-06-29

Abstract

本发明公开了一种适宜于视觉大数据的词频直方图计算方法，包括以下步骤，步骤一，利用特征提取算法，从图像中提取视觉词汇向量，将所有视觉词汇向量集合在一起形成源数据集D＝[D₁,D₂,...,D_m]，利用K?Means算法对视觉词汇向量进行聚类，生成视觉词典C＝[C₁,C₂,...,C_K]；步骤二，统计视觉词典中视觉单词向量的词频，完成词频直方图。本发明采用Map?Reduce数据处理方法，对BoW模型进行可并行化分析，将BoW模型适用于视觉大数据的分析与处理。

Description

一种适宜于视觉大数据的词频直方图计算方法

技术领域

本发明涉及一种适宜于视觉大数据的词频直方图计算方法，属于计算机视觉领域。

背景技术

计算机视觉领域的词袋模型(Bag of visual Words,BoW)是一种有效的表示视觉对象的方法，如。经典的词袋模型构建分为三步：第一步，提取特征点，利用特征提取算法，从图像中提取视觉词汇向量，这些向量代表的是图像中局部不变的特征点；第二步，将所有的视觉词汇向量集合在一起，利用K-Means聚类算法合并词义相近的视觉词汇，构造一个包含K个视觉单词向量的视觉词典；第三步，统计视觉词典中每个视觉单词向量出现的次数，从而将图像表示成为一个K维数值向量，即该图像的词频直方图。

伴随着互联网和社交网络的发展，视觉大数据越来越广泛，数据量的快速增长给经典的视觉词袋模型带来了挑战。由于百万张规模以上图像的处理和分析需要借助于计算机集群或云计算模式，而经典的视觉词袋模型仅适合于一台计算机。近年来Map-Reduce数据处理方法已经广泛的应用于大数据分析与处理，并且已有适合于大数据平台的K-Means聚类算法。通过分析词袋模型的三个步骤，将词袋模型应用于视觉大数据的一个关键问题就是如何解决大数据平台下计算每个视觉对象的词频直方图。

发明内容

为了解决上述技术问题，本发明提供了一种适宜于视觉大数据的词频直方图计算方法。

为了达到上述目的，本发明所采用的技术方案是：

一种适宜于视觉大数据的词频直方图计算方法，其特征在于：包括以下步骤，

步骤一，利用特征提取算法，从图像中提取视觉词汇向量，将所有视觉词汇向量集合在一起形成源数据集D＝[D_1,D₂,...,D_m]，利用K-Means算法对视觉词汇向量进行聚类，生成视觉词典C＝[C₁,C₂,...,C_K]；

其中，D_i为第i个视觉词汇向量，i∈[1,m]，m为视觉词汇向量的个数，dim(D_i)＝v，dim()表示维度，C_k为视觉词典中的第k个视觉单词向量，k∈[1,K]，K为视觉单词向量的个数，dim(C_k)＝v；

步骤二，统计视觉词典中视觉单词向量的词频，完成词频直方图；

21)读取视觉词典和源数据集，将视觉词典分发到集群的每个Worker点，使每个Worker点都有一份视觉词典的拷贝；将源数据集Map到每个Worker点，使每个Worker点都有一份相互不同的源数据集分片；

22)在每个Worker上面分别计算D_i到C_k的欧式距离，并比较欧式距离的大小，得到最小欧式距离的索引k；

23)对步22中的结果做一个Reduce，统计对应每个图像，C_k出现的次数，得到每个C_k的词频，从而得到对每张图像的词频直方图。

2、根据权利要求1所述的一种适宜于视觉大数据的词频直方图计算方法，其特征在于：词频的计算公式为，

F_k＝T_k/K

其中，F_k为C_k的词频，T_k为C_k出现的次数。

本发明所达到的有益效果：本发明通过对经典BoW模型的分析和改进，提出一种适宜于视觉大数据的词频直方图计算方法，采用Map-Reduce数据处理方法，对BoW模型进行可并行化分析，将BoW模型适用于视觉大数据的分析与处理；该方法可用于计算大规模视觉数据的词频直方图，从而将经典BoW模型应用于大规模视觉计算领域；该方法可和大规模机器学习算法组合使用，应用于计算机视觉领域如：视频分类、行为识别和分类。

附图说明

图1为本发明的逻辑框图。

图2为具体实施例的流程图。

图3为计算视觉词汇向量所属视觉单词向量的逻辑框图。

图4为统计词频的逻辑框图。

图5为具体实施例的直方图表示。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种适宜于视觉大数据的词频直方图计算方法，包括以下步骤：

其中，D_i为第i个视觉词汇向量，i∈[1,m]，m为视觉词汇向量的个数，dim(D_i)＝v，dim()表示维度，C_k为视觉词典中的第k个视觉单词向量，k∈[1,K]，K为视觉单词向量的个数，dim(C_k)＝v。

23)对步22中的结果做一个Reduce，统计对应每个图像，C_k出现的次数，得到每个C_k的词频，从而得到对每张图像的词频直方图；

词频的计算公式为，

F_k＝T_k/K

其中，F_k为C_k的词频，T_k为C_k出现的次数。

下面以N张图像为例，如图2所示，利用特征提取算法，将图像I_j表示为若干特征点的集合，即若干个视觉词汇向量集合为图像I_j的第l个视觉词汇向量，l∈[1,n]，n为图像I_j的视觉词汇向量的个数；定义一个图像集M＝[A₁,...,A_j,...,A_N]，表示N张图像的视觉词汇向量集合，即上述的源数据集，j∈[1,N]为图像的id；利用K-Means算法对视觉词汇向量进行聚类，生成视觉词典C＝[C₁,C₂,...,C_K]。词频直方图计算方法的详细步骤如下：

1、读入图像集M和视觉词典C，将C分发到(Broadcast)集群中的每个Worker点，使得每个Worker点都有一份C；将图像集Map到每个Worker点，每个Worker点收到图像集M的一部分，；假设集群中有W个Worker点，第w个Worker点中含有数据C和M_w，其中

M_{w} = [A_{1}^{w}, A_{2}^{w}, ..., A_{N}^{w}],

Σ_{w = 1}^{W} A_{j}^{w} = A_{j} .

2、在每个Worker点中计算M_w中每个视觉词汇向量到C_k的欧式距离，并比较欧式距离的大小，求出欧式距离最小的索引k。具体解释如图3所示：

A1、定义

f_{j}^{l} = [a_{j}^{1}, a_{j}^{2}, ..., a_{j}^{v}], C_{k} = [b_{k}^{1}, b_{k}^{2}, ..., b_{k}^{v}],

则欧式距离为其中表示一个视觉词汇，表示一个视觉单词，t∈[1,v]；

计算每个视觉词汇向量到C_k(k＝1,2,...,K)的欧式距离

A2、比较欧式距离，求得最小欧式距离所对应的索引k，则视觉词汇向量归于视觉单词向量C_k。

A3、重复A1、A2两个步骤，依次求得I_j中所有视觉词汇向量归于的视觉单词向量，将图像id与索引k生成一个Map-Reduce＜key,value＞模式的映射＜id,k＞。

A4、对＜id,k＞做Reduce操作，将相同id所对应的k放入到同一集合中即生成＜id,Seq(C_k)＞，Seq(C_k)表示同一个图像I_j中视觉词汇向量所对应视觉单词向量的集合。

3、统计图像I_j中，C_k(k＝1,2,...,K)出现的次数T_k，计算出词频F_k，从而将图像I_j表示成为一个K维数值向量，则对应I_j可表示为F_k(k＝1,2,...,K)，其中F_k满足具体解释如图4所示：

B1、将＜id,Seq(C_k)＞按照id Map到Worker点，对于相同的id，同时做以下操作：统计Seq(C_k)的个数K，将Seq(C_k)做Map操作，对应每个C_k映射成＜C_k,1＞。

B2、按照C_k做累加，统计C_k出现的次数T_k，将T_k除以K，得到图像I_j对应每个视觉单词向量的词频，从而计算出每个的词频直方图，具体结果如图5所示，为了方便将K实例化4。

上述方法采用Map-Reduce数据处理方法，对BoW模型进行可并行化分析，将BoW模型适用于视觉大数据的分析与处理。该方法可用于计算大规模视觉数据的词频直方图，从而将经典BoW模型应用于大规模视觉计算领域；可和大规模机器学习算法组合使用，应用于计算机视觉领域如：视频分类、行为识别和分类。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种适宜于视觉大数据的词频直方图计算方法，其特征在于：包括以下步骤，

步骤一，利用特征提取算法，从图像中提取视觉词汇向量，将所有视觉词汇向量集合在一起形成源数据集D＝[D₁,D₂,...,D_m]，利用K-Means算法对视觉词汇向量进行聚类，生成视觉词典C＝[C₁,C₂,...,C_K]；

2.根据权利要求1所述的一种适宜于视觉大数据的词频直方图计算方法，其特征在于：词频的计算公式为，

F_k＝T_k/K

其中，F_k为C_k的词频，T_k为C_k出现的次数。