CN104598885B

CN104598885B - 街景图像中的文字标牌检测与定位方法

Info

Publication number: CN104598885B
Application number: CN201510035339.XA
Authority: CN
Inventors: 赵凡; 杨垚; 孙力; 李妮
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2017-09-22
Anticipated expiration: 2035-01-23
Also published as: CN104598885A

Abstract

本发明公开了街景图像中的文字标牌检测与定位方法，其包括文字标牌分类器的训练过程和文字标牌的检测与定位过程。本发明在文字标牌的描述方面，结合空间金字塔匹配(SPM)模型，得到SIFT特征直方图向量，形成对图像的全局形状描述特征，使提取的局部特征保持了空间关系，对图像的形状描述更加精确；再结合文字标牌的颜色特征，将SIFT特征直方图向量和HS分量颜色直方图向量融合，更加准确的描述了文字标牌图像。此外，在字典学习方面，使用了SGONG聚类方法自适应地决定了街景图像目标的种类个数，使聚类结果更加精确和可靠。因此，本发明提供的方法在很大程度的提高了自然场景中文字标牌的检测率。

Description

街景图像中的文字标牌检测与定位方法

技术领域

本发明属于图像处理技术领域，涉及街景图像中的文字标牌检测与定位方法。

背景技术

文字标牌检测与定位是自然场景中文字识别的一个重要部分，属于模式识别领域。文字识别可以广泛应用在汽车的自动驾驶、机器人导航以及盲人辅助定位等诸多方面，所以文字标牌检测为自然场景中进一步的文字识别提供了很好的基础，具有一定的实用性。

由于文字标牌所包含的文字在大小、形状、字体、颜色和排列的多样性，以及复杂背景、光照变换、几何失真和模糊的影响，使得准确的文字检测、定位和识别就变得很困难。文字检测和定位的准确性会直接影响文字的识别率，所以，很多算法都致力于文字标牌的检测和定位。目前对于文字标牌的检测率并不理想，并且大多数研究只针对于交通标牌的检测与识别，对于其它文字标牌检测与识别的研究很少。

在目前可见的研究文献中，大多采用分类器进行交通标牌的检测和识别，最好的方法是采用词袋模型(BoW)。但传统的词袋模型的一个致命缺陷是它将图像视为局部特征的无序集合，即对局部特征之间的空间关系完全不予考虑，从而限制了特征的描述能力，降低了图像分类的准确性。BoW模型的中的字典学习方法K-Means也存在以下缺陷:需要事先依据经验指定聚类的类别数。若类别数过小，会对数据造成欠分割，降低字典的区分能力；若类别数过大，会造成样本空间过分割，也会增加后续分类的复杂度。

发明内容

本发明的目的是提供一种街景图像中的文字标牌检测与定位方法，解决了现有技术中存在的对文字标牌特征描述不全面、聚类方法不能自适应地决定聚类中心个数造成的文字标牌检测率低的技术问题。

本发明所采用的技术方案为：街景图像中的文字标牌检测与定位方法，包括文字标牌分类器的训练过程和文字标牌的检测与定位过程，文字标牌分类器的训练过程，包括以下步骤：

步骤1：采集一定数量的街景图像，作为字典学习的样本图像集

步骤2：将获取的街景图像输入计算机，提取街景图像的SIFT特征，得到SIFT特征集

步骤3：用SGONG聚类方法对SIFT特征集进行学习，得到聚类中心，即字典D＝[D₁,D₂,......,D_C]，其中C为字典中的词汇的个数，即聚类的类别个数；

步骤4：在街景图像样本图像集中随机选取部分文字标牌图像作为正样本图像集选取部分除文字标牌以外的场景图像作为负样本图像集合并正、负样本图集，得到SVM训练图像集其图像的张数为α是比例因子；

步骤5：提取图像集中图像的颜色直方图向量其组成的集合His_Col即为图像的颜色特征集Fea_Col，其中，

步骤6：提取图像集中图像的SIFT直方图向量其组成的集合His_Sha即为图像的形状特征集Fea_Sha，其中，

步骤7：将颜色直方图向量与SIFT直方图向量合并为的颜色和形状直方图向量其集合构成向量集His_ShaCol，即为图像的形状和颜色描述特征集Fea_ShaCol，具体描述为下式：

步骤8：生成灰度文字标牌的分类器S_Classifer和彩色文字标牌的分类器SC_Classifer，具体过程如下：

采用SVM分类器学习图像的形状特征集Fea_Sha，生成灰度文字标牌的分类器S_Classifer—即灰度文字标牌的分类器，该分类器的线性分类函数是f₁(x)＝w₁ ^Tx+b₁，其中w₁，b₁为学习得到的参数；

采用SVM分类器学习图像的形状和有颜色描述特征集Fea_ShaCol，生成彩色文字标牌的分类器SC_Classifer—即彩色文字标牌分类器，该分类器的线性分类函数是f₂(x)＝w₂ ^Tx+b₂，其中w₂，b₂为学习得到的参数。

本发明的特点还在于，

文字标牌的检测和定位过程包括以下步骤：

步骤1：选取一定数目的街景图像作为测试图像集I_test，图像的张数为

步骤2：滑动窗检测，具体过程如下：

用M₂*N₂大小的窗在每个测试图像上进行滑动检测，若滑动窗所在的图像区域为灰度图像，则采用文字标牌分类器的训练过程中获取SIFT直方图向量的方法获取图像区域的SIFT直方图向量，用S_Classifier判断是否为文字标牌，若滑动窗所在的图像区域为彩色图像，则采用文字标牌分类器的训练过程中获取颜色和形状直方图向量的方法得到该图像区域的颜色和形状直方图向量，用SC_Classifier判断是否为文字标牌；

步骤3：文字标牌的定位，具体过程如下：

将所有检测到的文字标牌图像区域用矩形框标记出来，合并相交的矩形框，合并后的矩形框区域即检测到的文字标牌区域。

文字标牌分类器的训练过程步骤3中用SGONG聚类方法对SIFT特征集进行学习，得到聚类中心，即字典D＝[D₁,D₂,......,D_C]的方法如下：

3.1，首先初始化SGONG字典学习过程的相关参数：

(1)神经元权重系数为W_i＝[w_i,0,w_i,1,...w_i,k-1]^T,i＝0,1,...,c-1，c为每一步输出的神经元个数，开始训练前c的初始值为2，k为神经元维数，这里是SIFT特征维数，为128；

(2)为每一个神经元i定义两个累计误差和其中表示神经元i的全部量化误差，为移除神经元i产生的增量误差；

(3)N_i表示被划分到神经元i的输入向量个数，N_idle表示连续有多少个特征矢量被划分到该神经元，该神经元就训练完毕，该变量N_idle也为时间周期变量；max-Nodes代表输出的神经元最大个数，Max_age代表最大的横向连接数，max-epoch代表迭代次数；

3.2，开始训练：

在SIFT特征集中随机选取两个向量作为初始的神经元wn₁和wn₂，开始迭代训练SGONG神经网络，迭代算法的具体步骤为：

(1)将累积误差和值设置为0；

(2)从随机选取一个向量，作为输入向量X_j；

(3)对于输入的矢量X_j，从神经元中选择最佳匹配和次匹配的神经元W_wn1和W_wn2，规则如下：

(4)调整局部变量以及时间变量

(5)在时间周期N_idle内调整神经元wn₁和邻域神经元的局部学习率和通过时间变量N_wn1让它们的值从最大到最小变化，相反中间变量γ_wn1的初始值为1，最后达到最大值γ_max：

如果

否则

(6)调整神经元wn₁和邻域神经元的权重：

其中，nei(i)表示神经元i的邻域函数；

(7)用一个c×c的矩阵s_i,j来描述神经元之间的横向连接，其中s_i,j＝0表示神经元i和j相连，s_i,j＝-1表示神经元i和j不相连，s_i,j的调整规则为：

a.一旦检测到神经元wn₁和wn₂，初始化它们之间的连接：

b.除了神经元wn₂，对所有和神经元wn₁相连的神经元m，调整横向连接：

c.当横向连接超过阈值Max_age时，解除连接：

如果S_i,j＞Max_age，则

(8)当每一次迭代结束，检查所有的神经元状态：若所有的神经元处于静止状态，即N_i≥N_idle时，并且当前神经网络中的神经元个数达到规定的最大值max-Node时，训练过程结束，否则进入第(9)步；

(9)根据以下标准修改输出的神经元：

a.当迭代次数已经达到max-epoch，还没有任何训练样本属于某个类，该类对应的神经元认为是不活跃的，从该网络中移除；

b.当神经网络中的神经元个数还未达到规定的最大值max-Node时，如果一个神经元和它邻域的神经元之间的平均差异大于设定的阈值，在该神经元附近增加一个新的神经元；

c.当神经网络中的神经元个数还未达到规定的最大值max-Node时，如果一个神经元和它邻域的神经元之间的平均差异小于设定的阈值，该神经元认为是过剩的，从网络中移除该神经元；

d.如果迭代次数小于max-epoch，迭代次数加1，返回迭代算法中的步骤(2)，如果迭代次数达到max-epoch，SGONG的字典训练过程结束，输出最终的所有神经元。

文字标牌分类器的训练过程步骤5中得到图像的颜色特征集Fea_Col的具体过程如下：

5.1，对图像集中的图像进行RGB到HSV的颜色空间转换；

5.2，获取HS分量颜色直方图向量，具体过程如下：

把图像的H分量和S分量分别量化为16个和8个Bin，合并为128个Bin，即128＝16*8，得到图像HS分量的颜色直方图向量其组成的集合His_Col即为颜色特征集Fea_Col。

文字标牌分类器的训练过程步骤6中得到图像的形状特征集Fea_Sha的具体过程如下：

6.1，对正负样本图像集中的图像提取SIFT特征，同时获得每一个SIFT特征点的坐标(x,y)，并将提取的SIFT特征按照步骤3中生成的字典D进行矢量量化(VQ，Vector Quantization)；

6.2，对量化后的特征结合空间金字塔匹配模型生成SIFT直方图向量得到SIFT直方图向量集His_Sha，即为图像的形状特征集Fea_Sha，具体过程为：

6.2.1，首先在不同空间尺度l上将图像划分为2^l*2^l个图像块，所有尺度上的图像块共有P个，l取0，1，2，则P＝2⁴+2²+2⁰＝21，p代表图像块的编号，p＝1,2,...21；

6.2.2，然后根据SIFT特征点的坐标(x,y)，判断特征点隶属的图像块，方法为：

(1)l＝0时，只有一个图像块，即p＝1，该图像块就是整幅图像，所有的特征点都属于编号为1的图像块；

(2)l＝1时，图像被分成4个大小相同的图像块，图像块从左到右从上到下依次编号为2，3，4，5，即p＝2,3,4,5，此时，每一图像块的宽度为高度为特征点(x,y)隶属于图像块p的计算公式为： p＝1+ybin×2+xbin+1；

(3)l＝2时，图像被分成16个大小相同的图像区域，图像块从左到右从上到下依次编号为6,7,…,21，即p＝6,7,...,21，每一图像块的宽度为高度为特征点(x,y)隶属于图像块p的计算公式为： p＝1+4+ybin×4+xbin+1；

6.2.3，根据特征点所隶属的图像块得到每个图像块的视觉词汇直方图向量p＝1,2,...21，j_v＝1,2,...C，最后将每个图像块的视觉词汇直方图向量合并，得到图像的SIFT直方图向量其中j_s＝1,2......，P×C，其集合构成形状特征集Fea_Sha，形成对图像的最终全局描述特征。

判断滑动窗检测图像区域性质的判断方法如下：

若f(R,G,B)＜1，则图像区域为灰度图像；若f(R,G,B)≥1，则图像区域为彩色图像，其中，

式中，R、G、B分别为该图像块的红色、绿色、蓝色分量平均值，参数D是权重因子。

用S_Classifer判断滑动窗测试图像区域否为文字标牌的判断方法如下：将滑动窗测试图像区域的SIFT直方图向量带入线性分类函数f₁(x)＝w₁ ^Tx+b₁，若函数值大于等于1，则该图像区域为文字标牌，若函数值小于等于0，则该图像区域为街景中除文字标牌以外的场景。

用SC_Classifier判断滑动窗测试图像区域否为文字标牌的判断方法如下：将滑动窗测试图像区域将颜色和形状直方图向量，带入线性分类函数f₂(x)＝w₂ ^Tx+b₂，若函数值大于等于1，则该图像区域为文字标牌，若函数值小于等于0，则该图像区域为街景中除文字标牌以外的场景。

本发明的有益效果是，本发明的街景图像中的文字标牌检测与定位方法，在文字标牌的描述方面，结合空间金字塔匹配(Spatial Pyramid Matching，SPM)模型，在不同空间尺度l上将图像划分为2^l×2^l个图像块，然后为每个图像块计算一个视觉词汇直方图，最后再将各图像块的直方图串接，得到SIFT特征直方图向量，形成对图像的全局形状描述特征，即将局部特征向量整合为一个刻画图像完整内容的全局向量，使提取的局部特征保持了空间关系，对图像的形状描述更加精确。再结合文字标牌的颜色特征：HS分量颜色直方图向量，汇总成图像的最终全局“形”和“色”特征，也就是说本发明融合了SIFT特征直方图向量和HS分量颜色直方图向量，在图像的最终全局描述方面同时考虑图像的“形”和“色”特征，可以更加准确的描述文字标牌图像。此外，在字典学习方面，使用了SGONG(Self-Growing and Self-Organized Neural Gas)聚类方法自适应地决定了街景图像目标的种类个数，使聚类结果更加精确和可靠。因此，本发明提供的方法在很大程度的提高了自然场景中文字标牌的检测率。

附图说明

图1是本发明方法的处理流程图；

图2是本发明在不同空间尺度上对图像的划分示意图，(a)图为尺度l＝0，(b)图为尺度l＝1，(c)图为尺度l＝2；

图3是本发明的空间金字塔匹配的示意图；

图4是本发明的形状和颜色直方图的生成示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明的技术方案进行清楚、完整地描述。

街景图像中的文字标牌检测与定位方法，如图1所示，由文字标牌分类器训练过程(虚线以上)和文字标牌检测与定位过程(虚线以下)组成。

首先进行文字标牌分类器训练过程，其包括以下步骤：

步骤1：通过拍摄或网络下载，获取一定数量的街景图像，作为字典学习的样本图像集M*N代表图像的分辨率，J代表图像的个数，图像的个数取值为N_img；

字典学习图像集中的图像应全面包括各种街景场景，在本发明中该具体实施方式中一共选取了1334张街景图像作为字典学习样本图像。

步骤2：将获取的街景图像输入计算机，采用D.G.Lowe 1999年提出的SIFT特征提取与匹配算法对街景图像提取SIFT特征，得到SIFT特征集其中特征点的维数k取值为128，N_fea为特征点个数，为4087600；

步骤3：用SGONG聚类方法对SIFT特征集进行学习，得到聚类中心，即字典D＝[D₁,D₂,......,D_C]，其中C为字典中的词汇的个数，即聚类的类别个数，学习方法如下：

3.1，首先初始化SGONG字典学习过程的相关参数：

在本发明该具体实施方式中max-Nodes取值200，max-epoch取值8000000，Max_age取值1000，N_idle取值10000；

3.2，开始训练：

(1)将累积误差和值设置为0；

(2)从随机选取一个向量，作为输入向量X_j；

(4)调整局部变量以及时间变量

如果

否则

(6)调整神经元wn₁和邻域神经元的权重：

其中，nei(i)表示神经元i的邻域函数；

①一旦检测到神经元wn₁和wn₂，初始化它们之间的连接：

②除了神经元wn₂，对所有和神经元wn₁相连的神经元m，调整横向连接：

③当横向连接超过阈值Max_age时，解除连接：

如果S_i,j＞Max_age，则

(9)根据以下标准修改输出的神经元：

①当迭代次数已经达到max-epoch，还没有任何训练样本属于某个类，该类对应的神经元认为是不活跃的，从该网络中移除；

②当神经网络中的神经元个数还未达到规定的最大值max-Node时，如果一个神经元和它邻域的神经元之间的平均差异大于某个阈值，在该神经元附近增加一个新的神经元，本发明中的阈值选为0.1；

③当神经网络中的神经元个数还未达到规定的最大值max-Node时，如果一个神经元和它邻域的神经元之间的平均差异小于某个阈值，该神经元认为是过剩的，从网络中移除该神经元，本发明中的阈值选取为0.05。

④如果迭代次数小于max-epoch，迭代次数加1，返回迭代算法中的步骤(2)，如果迭代次数达到max-epoch，SGONG的字典训练过程结束，输出最终的所有神经元。

最终输出的所有神经元即SGONG训练好的字典词汇，生成的字典为D＝[D₁,D₂,......,D_C]，其中C为词汇个数，为43，D_C为词汇，也就是聚类的各个类中心。

步骤4：选取SVM训练图像集具体过程如下：

在街景图像样本图像集中随机选取部分文字标牌图像作为正样本图像集选取部分除文字标牌以外的场景图像作为负样本图像集其中，α是比例因子，取值为8，把它们合并为正负样本图像集即图像的张数为

正负样本的图像分辨率相同，并且尽量包含街景中的各类场景目标，即正样本应充分包括街景中的各类文字标牌，负样本应包括街景中除文字标牌以外的各类场景，这里正样本选取500张，负样本选取500张。

步骤5：提取图像集中图像的颜色直方图向量得到图像的颜色特征集Fea_Col，具体过程如下：

5.1，对图像集中的图像进行RGB到HSV的颜色空间转换；

5.2，获取HS分量颜色直方图向量，具体过程如下：

把图像的H分量和S分量分别量化为16个和8个Bin，合并为128个Bin，即128＝16*8，得到图像分量的颜色直方图向量其组成的集合His_Col即为颜色特征集Fea_Col。

步骤6：提取图像集中图像的SIFT直方图向量得到图像的形状特征集Fea_Sha，具体过程如下：

6.1，对正负样本图像集中的图像提取SIFT特征，同时获得每一个SIFT特征点的坐标(x,y),并将提取的SIFT特征按照步骤3中生成的字典D进行矢量量化(VQ，Vector Quantization)；

6.2对量化后的特征结合空间金字塔匹配(SPM)模型生成SIFT直方图向量其组成的集合His_Sha即为图像的形状特征集Fea_Sha，具体过程为：

6.2.1，首先在不同空间尺度l上将图像划分为2^l*2^l个图像块，所有尺度上的图像块共有P个，尺度l取值为0，1，2，则P＝2⁴+2²+2⁰＝21,p代表图像块的编号，p＝1,2,...21；l＝0时，图像块编号为1；l＝1时，图像块从左到右从上到下依次编号为2，3，4，5；l＝2时，图像块从左到右从上到下依次编号为6,7,…,21，如图2所示；

6.2.2，根据SIFT特征点的坐标(x,y)，判断特征点隶属于哪个图像块，方法为：

(1)当l＝0时，只有一个图像块，即p＝1，该图像块就是整幅图像，所有的特征都属于编号为1的图像块；

(2)当l＝1时，图像被分成4个图像块，各个图像块的大小相同，宽度高度特征点(x,y)隶属于图像块p的计算公式： p＝1+ybin×2+xbin+1，其中为下取整函数符号，xbin和ybin为中间变量；

(3)当l＝2时，图像被分成大小相同的16个图像块，各个图像块的宽度高度特征点(x,y)隶属于图像块p的计算公式：， p＝1+4+ybin×4+xbin+1；其中为下取整函数符号，xbin和ybin为中间变量；

6.2.3，根据SIFT特征点所隶属的图像块得到每个图像块的视觉词汇直方图向量最后将每个图像块的视觉词汇直方图向量合并，得到图像的SIFT直方图向量其中j_s＝1,2......，P×43，其集合构成形状特征集Fea_Sha，形成对图像的最终全局描述特征；

针对BoW模型没有充分考虑局部特征的空间信息而导致的描述能力下降问题，本发明使用SPM模型可增强特征的描述能力。SPM模型的具体实现过程，如图3所示。

步骤7：获取图像的形状和颜色描述特征集Fea_ShaCol：

将颜色直方图向量与SIFT直方图向量合并，汇总得到颜色和形状直方图向量其集合构成向量集His_ShaCol，即为图像的形状和颜色描述特征集Fea_ShaCol，具体可描述为下式：

获取图像的形状和颜色描述特征集Fea_ShaCol的具体过程如图3所示。

采用SVM分类器学习图像的形状特征集Fea_Sha，生成灰度文字标牌的分类器S_Classifer—即灰度文字标牌的分类器，该分类器的线性分类函数是f₁(x)＝w₁ ^Tx+b₁,其中w₁，b₁为学习得到的参数；

文字标牌分类器生成后，便可以进行文字标牌检测和定位，其包括以下步骤：

步骤9：文字标牌检测和定位

9.1，测试图像选取：选取一定数目的街景图像作为测试图像集I_test，图像的张数为这里选取1500张；

9.2，文字标牌的检测，具体过程为：

采用滑动窗检测：用M₂*N₂大小的窗在每个测试图像上进行滑动检测，滑动窗过大会造成选定的目标范围超过文字标牌区域，过小会因为文字特征不明显而降低检测率，所以滑动窗的选取不可过大或者过小，故M₂设置为60～100，N₂设置为50～70，本发明的该具体实施方式中设置M₂为90，N₂为60；

若滑动窗所在的图像区域为灰度图像，则采用步骤6中的方法得到该图像区域的SIFT直方图向量，用S_Classifier判断是否为文字标牌，判断方法为：将SIFT直方图向量作为x的值，带入线性分类函数f₁(x)＝w₁ ^Tx+b₁，若函数值大于等于1，则该图像区域为文字标牌，若函数值小于等于0，则该图像区域为街景中除文字标牌以外的场景；若滑动窗所在的图像区域为彩色图像，则采用步骤5～7中的方法得到该图像区域的颜色和形状直方图向量，用SC_Classifier判断是否为文字标牌，判断方法为：将颜色和形状直方图向量作为x的值带入线性分类函数f₂(x)＝w₂ ^Tx+b₂，若函数值大于等于1，则该图像区域为文字标牌，若函数值小于等于0，则该图像区域为街景中除文字标牌以外的场景；其中，滑动窗测试图像区域性质的判断方法如下：

式中，R、G、B分别为该图像块的红色(red)、绿色(green)、蓝色(blue)分量平均值，参数D是权重因子，本发明中取值为20；

9.3，文字标牌的定位，具体过程如下：

在实验中，分别对稀疏字典、K均值聚类以及SGONG三种字典学习方法进行了对比，结果如图表1所示：

表1.稀疏字典、K均值聚类以及SGONG三种字典学习方法比较

聚类方法	类数	正样本检测率	负样本检测率
				SGONG	43类	80.9％	91.93％
K均值	43类	78.3％	90.73％
				稀疏字典	43类	68.4％	85.07％

从表1中可以看出，在相同条件下，相对K均值聚类方法和稀疏字典的学习方法，用SGONG聚类方法所生成的字典用于文字标牌的检测可以获得最高的检测率，实验数据说明SGONG方法得到的聚类结果更加精确、可靠。

采用相同的聚类方法(SGONG)和不同的特征在实验中再分别进行测试，测试结果见表2。其中第一个实验方案使用的特征是由SIFT特征基于词袋模型计算得到的视觉词汇直方图向量；第二个实验方案使用的特征是本发明步骤6所得的SIFT直方图向量，是结合SPM的视觉词汇直方图向量；第三个方案使用的特征是本发明步骤5～7所得的形状和颜色直方图向量，是SIFT直方图向量和颜色直方图的汇总向量。从实验结果可以看出SIFT直方图向量特征相对视觉词汇直方图向量特征的检测率要高，因为它考虑了SIFT特征的空间信息。因为本发明提出的“形”和“色”特征同时考虑了文字标牌的形状特征(SIFT直方图)、颜色特征(颜色直方图)和SIFT特征的空间分布信息，对正负样本的检测率都是最高的，因此本发明可以在很大程度上的提高文字标牌的检测准确率。

表2.三种实验方案的测试率对比

Claims

1.街景图像中的文字标牌检测与定位方法，其特征在于，其包括文字标牌分类器的训练过程和文字标牌的检测与定位过程，文字标牌分类器的训练过程，包括以下步骤：

步骤4：在街景图像样本图像集中随机选取部分文字标牌图像作为正样本图像集选取部分除文字标牌以外的场景图像作为负样本图像集合并正、负样本图集，得到SVM训练图像集其图像的张数为 α是比例因子；

2.根据权利要求1所述的街景图像中的文字标牌检测与定位方法，其特征在于，文字标牌的检测和定位过程包括以下步骤：

步骤2：滑动窗检测，具体过程如下：

步骤3：文字标牌的定位，具体过程如下：

3.根据权利要求1所述的街景图像中的文字标牌检测与定位方法，其特征在于，步骤3中用SGONG聚类方法对SIFT特征集进行学习，得到聚类中心，即字典D＝[D₁,D₂,......,D_C]的方法如下：

3.1，首先初始化SGONG字典学习过程的相关参数：

3.2，开始训练：

(1)将累积误差和值设置为0；

(2)从随机选取一个向量，作为输入向量X_j；

<mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>|</mo> <mo>|</mo> <mo>&le;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>,</mo> <mo>&ForAll;</mo> <mi>i</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>c</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mrow> <msub> <mi>wn</mi> <mn>2</mn> </msub> </mrow> </msub> <mo>|</mo> <mo>|</mo> <mo>&le;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>,</mo> <mo>&ForAll;</mo> <mi>i</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>1</mn> <mo>,</mo> <mi>c</mi> <mo>&rsqb;</mo> <mo>,</mo> <mi>i</mi> <mo>&NotEqual;</mo> <msub> <mi>wn</mi> <mn>2</mn> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

(4)调整局部变量以及时间变量

如果

<mrow> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>=</mo> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>+</mo> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>-</mo> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mrow> <mrow> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mfrac> <msub> <mi>N</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>d</mi> <mi>l</mi> <mi>e</mi> </mrow> </msub> </mfrac> </msup> </mrow>

<mrow> <msub> <mi>r</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>r</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>r</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <msub> <mi>r</mi> <mi>max</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mfrac> <msub> <mi>N</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>d</mi> <mi>l</mi> <mi>e</mi> </mrow> </msub> </mfrac> </msup> </mrow>

<mrow> <mi>&epsiv;</mi> <msub> <mn>2</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>=</mo> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>.</mo> <mfrac> <mn>1</mn> <msub> <mi>r</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

否则

<mrow> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>=</mo> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>,</mo> <mi>&epsiv;</mi> <msub> <mn>2</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow>

(6)调整神经元wn₁和邻域神经元的权重：

<mrow> <msub> <mi>W</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>W</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&epsiv;</mi> <msub> <mn>1</mn> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>W</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>W</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&epsiv;</mi> <msub> <mn>2</mn> <mi>m</mi> </msub> <mo>.</mo> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>W</mi> <mi>m</mi> </msub> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <mi>m</mi> <mo>&Element;</mo> <mi>n</mi> <mi>e</mi> <mi>i</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，nei(i)表示神经元i的邻域函数；

a.一旦检测到神经元wn₁和wn₂，初始化它们之间的连接：

<mrow> <msub> <mi>S</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>S</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>m</mi> <mo>&Element;</mo> <mi>n</mi> <mi>e</mi> <mi>i</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <msub> <mi>wn</mi> <mn>1</mn> </msub> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>m</mi> <mo>&NotEqual;</mo> <msub> <mi>wm</mi> <mn>2</mn> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

c.当横向连接超过阈值Max_age时，解除连接：

如果S_i,j＞Max_age，则

(9)根据以下标准修改输出的神经元：

4.根据权利要求1所述的街景图像中的文字标牌检测与定位方法，其特征在于，步骤5中得到图像的颜色特征集Fea_Col的具体过程如下：

5.1，对图像集中的图像进行RGB到HSV的颜色空间转换；

5.2，获取HS分量颜色直方图向量，具体过程如下：

5.根据权利要求1所述的街景图像中的文字标牌检测与定位方法，其特征在于，步骤6中得到图像的形状特征集Fea_Sha的具体过程如下：

(3)l＝2时，图像被分成16个大小相同的图像区域，图像块从左到右从上到下依次编号为6,7,...,21，即p＝6,7,...,21，每一图像块的宽度为高度为特征点(x,y)隶属于图像块p的计算公式为： p＝1+4+ybin×4+xbin+1；

6.根据权利要求2所述的街景图像中的文字标牌检测与定位方法，其特征在于，判断滑动窗检测图像区域性质的判断方法如下：

7.根据权利要求2所述的街景图像中的文字标牌检测与定位方法，其特征在于，用S_Classifer判断滑动窗测试图像区域否为文字标牌的判断方法如下：将滑动窗测试图像区域的SIFT直方图向量带入线性分类函数f₁(x)＝w₁ ^Tx+b₁，若函数值大于等于1，则该图像区域为文字标牌，若函数值小于等于0，则该图像区域为街景中除文字标牌以外的场景。

8.根据权利要求2所述的街景图像中的文字标牌检测与定位方法，其特征在于，用SC_Classifier判断滑动窗测试图像区域否为文字标牌的判断方法如下：将滑动窗测试图像区域将颜色和形状直方图向量，带入线性分类函数f₂(x)＝w₂ ^Tx+b₂，若函数值大于等于1，则该图像区域为文字标牌，若函数值小于等于0，则该图像区域为街景中除文字标牌以外的场景。