CN111143588A

CN111143588A - 一种基于机器学习的图像时空索引快速检索方法

Info

Publication number: CN111143588A
Application number: CN201911373788.XA
Authority: CN
Inventors: 王征明; 李昕晢
Original assignee: Zhongke Star Map Co ltd
Current assignee: Zhongke Star Map Co ltd; Zhongke Xingtu Intelligent Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12
Anticipated expiration: 2039-12-27
Also published as: CN111143588B

Abstract

本发明提出一种基于机器学习的数据时空索引快速检索方法。包括如下步骤：步骤1、选取某一区域或全球的各个层级的遥感图像；步骤2、随机切割一预定大小的图块，并使用时空索引对随机切割的图块数据进行编码作为训练数据；步骤3、利用上述切割的图块训练深度神经网络，输出图像对应的时空索引；步骤4、最后选择区域内任一层级图像，输入训练后的深度神经网络，得出对应时空索引。本发明基于图像内容快速检索图像对应地理位置，通过利用训练的神经网络，得到图像的索引序号，能够快速、精确匹配地理位置。

Description

一种基于机器学习的图像时空索引快速检索方法

技术领域

本发明涉及图像检索领域，尤其是一种基于机器学习的图像时空索引快速检索方法。

背景技术

基于内容的图像检索(CBIR,Content Based Image Retrieval)是相对成熟的技术领域，在工业界也有广泛的应用场景，如搜索引擎(Google、百度)的以图搜图功能，各电商网站(淘宝、Amazon、ebay)的相似商品搜索，社交平台(Pinterest)的相似内容推荐等。在遥感图像领域，常会出现根据图像查找地理位置的需求，这与图像内容检索是及其相似的。

图像内容检索流程与文本检索流程类似，但二者信息表征方法不同。文本通过词频计算BoW来表征一段文本内容，而图像则使用视觉特征来表示。Google团队2003年提出的视频内容检索方法借鉴文本检索流程，使用局部特征构建视觉词袋向量(Bag-of-Visual-Words，BoVW)，也称BoF(Bag-of-Features)，来表示图像。这里的视觉单词是指量化后的视觉特征。Video-Google中检索系统也分为构建词库、构建索引和检索三部分，其核心技术可以总结为两点：特征提取和近邻查找。后续图像检索基于大多基于此思想。

图像视觉特征分为多种，从存储形式分为浮点特征和二进制特征，从提取方式上分为传统特征和深度特征。卷积神经网络(CNN)出现之前，大部分特征是基于手工设计的提取算法进行特征提取，如sift、hog、harr、gist等。卷积神经网络在多项视觉任务如分类、检测、分割等表现出state-of-the-art的效果，在图像检索领域，基于CNN提取的深度特征同样也表现出远优于传统特征的效果。

遥感影像时空索引是遥感技术应用的重要内容之一，对于较大范围的卫星遥感和区域性(如城市)航空遥感而言，研究区域涉及的范围往往不是一幅影像所能覆盖的，需要多幅影像进行镶嵌，形成较大范围的遥感影像图，便于更好地统一处理、解译、分析和研究。其中，对大数据量遥感影像的索引编排是实际生产作业中必须解决处理的问题。

发明内容

针对上述问题，本发明提出了一种基于机器学习的数据时空索引快速检索方法。包括如下步骤：

步骤1、选取某一区域或全球的各个层级的遥感图像；

步骤2、随机切割一预定大小的图块，并使用时空索引对随机切割的图块数据进行编码作为训练数据；

步骤3、利用上述切割的图块训练深度神经网络，输出图像对应的时空索引；

步骤4、最后选择区域内任一层级图像，输入训练后的深度神经网络，得出对应时空索引。

进一步的，所述步骤1具体包括：将图像等尺寸随机切割为相同大小，并使用geohash算法计算切割后图像块中心点位置对应的索引。

进一步的，所述步骤2中，为统一各层级的不同图像的输出值，将geohash值的编码转换：将0值替换为-1，再最后补齐0到固定长度；所述编码转换利用非0值保留了编码前的长度信息，通过去掉后面冗余的0，得到编码长度，避免原编码中的0造成的长度歧义。

进一步的，所述步骤3所使用的深度神经网络结构为：输入一幅固定尺寸的遥感图像，经过卷积层1、卷积层2与全连接层2后，输出编号值；

经过卷积层1，全连接层1后输出一个标志位，标志编号值的有效位数。

进一步的，所述步骤3深度神经网络的训练过程为：

步骤4.1、记号：输入图像x，训练网络f，标志位输出为y，编号输出为z，[y,z]＝f(x)；

步骤4.2、令损失函数：

其中

为标志位输出期望，

为编号输出期望，λ为标志位的损失权重，利用梯度下降等优化算法，迭代优化至损失收敛即完成训练。

进一步的，所述步骤4中，随机选取步骤1中所选择区域的一幅没有geohash编码的图像，切割为步骤2中预定的大小，输入到训练完成的深度神剑网络中，得到的输入图像对应的geohash值。

有益效果：

现有图像检索大都是基于提取图像特征，在数据库中进行匹配，根据匹配值的大小的匹配目标可能有多个。而目标准确位置显然只有一个。而本发明基于图像内容快速检索图像对应地理位置，通过利用训练的神经网络，得到图像的索引序号，能够快速、精确匹配地理位置。

附图说明

图1：geohash编码示意图；

图2：本发明随机切割的图块示例；

图3：本发明的网络结构简图；

图4：本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

GeoHash本质上是空间索引的一种方式，其基本原理是将地球理解为一个二维平面，将平面递归分解成更小的子块，每个子块在一定经纬度范围内拥有相同的编码。以GeoHash方式建立空间索引，可以提高对空间poi数据进行经纬度检索的效率。

Geohash编码中，字符串相似的表示距离相近(特殊情况后文阐述)，这样可以利用字符串的前缀匹配来查询附近的POI信息。如下两个图所示，一个在城区，一个在郊区，城区的GeoHash字符串之间比较相似，郊区的字符串之间也比较相似，而城区和郊区的GeoHash字符串相似程度要低些。此外，不同的编码长度，表示不同的范围区间，字符串越长，表示的范围越精确。

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

根据本发明的一个实施例，提出一种基于机器学习的数据图像时空索引快速检索方法，参见图4，为该方法的步骤流程图，其步骤为：

步骤1、选取某一区域或全球的各个层级的遥感图像；

步骤2、按一定大小随机切割步骤1中的图像，获取多张等大小的图块，并使用时空索引对随机切割的图块数据进行编码作为训练数据；

参见附图1所示：根据空间索引，遥感图像可以按一定规则进行分块，每块都有其各自的编号，为方便训练，需要切割图像为一定尺寸的大小，而且实际需要检索位置的图像也不可能恰好落在一个索引编号的块中。需要检所的图像多数情况往往如附图2所示，落在边界的位置。

所以，训练数据需要涵盖尽可能多的这种情况，为此，将图像等尺寸随机切割为相同大小，并以切割后每个图像子块中心点的位置计算其对应索引；如图2的例子，即编号为010。

为统一各层级的不同图像的输出值，将geohash值的编码转换：将0值替换为-1，再最后补齐0到固定长度。例如层级范围为0-9，则补齐到19位(geohash值二进制位数与4326投影层级有NumOfBit＝2*Level+1的关系)；Level为层级数目，NumOfBit为二进制位数。例如：某图块geohash编码为1011 01，需要补齐到19位，则最终编码为1-111 -1100 00000000 000，这样编码保留了编码前的长度信息，去掉后面冗余的0，编码长度为6，避免了0造成的长度歧义。

步骤3中所使用的深度神经网络结构如图3所示，输入一幅固定尺寸的遥感图像，经过卷积层1、卷积层2与全连接层2后，输出编号值，经过卷积层1，全连接层1后输出一个标志位，标志编号值的有效位数。例如输入图像的编号为1-111 -1000 0000 0000 000，则标志位的值应为1111 1000 0000 0000 000。

所述深度神经网络的训练过程为：

步骤1、记号：输入图像x，训练网络f，标志位输出为y，编号输出为z，[y,z]＝f(x)；

步骤2、令损失函数：

其中λ为标志位的损失权重，利用梯度下降等优化算法，迭代优化至损失收敛即完成训练。

其中

为标志位输出期望，

为编号输出期望，

则表示标志位输出值与其期望的差值的l-2范数λ为标志位的损失权重，利用梯度下降等优化算法，迭代优化至损失值不再下降或下降幅度小于一定范围(如初始损失值为10，随着不断迭代，损失值为0.01，不再下降，或下降幅度非常小，如0.0998->0.0993->0.0987，损失下降幅度已经小于0.001)，则判断为收敛，即完成训练。

步骤4、随机选取步骤1中所选择区域的一幅没有geohash编码的图像，切割为步骤2中预定的大小，输入到步骤3中训练完成的网络中，根据即可得到的输入图像对应的geohash值。

例如：步骤1选取了中国地区0-9级的图像，切割为256*256的图像，训练完成后，在中国地区任取一块256*256的图像，输入训练完成的网络中，输出了以下值：y＝[0.98,0.92,0.89,0.99,0.87,0.96,0.95,0.01,0.02,0.05,0.00,0.03,0.02,0.00,0.01,0.00,0.03,0.00,0.00],z＝[0.99,-0.99,-0.98,0.97,-0.99,0.89,0.93,0.01,-0.05,0.04,0.03,0.02,-0.01,0.02,0.03,0.05,0.00,0.02,-0.01]则最终编码先取y中前n为接近1的位数即[0.98,0.92,0.89,0.99,0.87,0.96,0.95]共7位，则取z中前7位，分别为[0.99,-0.99,-0.98,0.97,-0.99,0.89,0.93]，根据其正负最终图像的geohash编码为1，-1，-1，0，-1，0，0。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于机器学习的图像时空索引快速检索方法，其特征在于：

包括如下步骤：

步骤1、选取某一区域或全球的各个层级的遥感图像；

2.根据权利要求1所述的一种基于机器学习的图像时空索引快速检索方法，其特征在于：

所述步骤1具体包括：将图像等尺寸随机切割为相同大小，并使用geohash算法计算切割后图像块中心点位置对应的索引。

3.根据权利要求1所述的一种基于机器学习的图像时空索引快速检索方法，其特征在于：

所述步骤2中，为统一各层级的不同图像的输出值，将geohash值的编码转换：将0值替换为-1，再最后补齐0到固定长度；所述编码转换利用非0值保留了编码前的长度信息，通过去掉后面冗余的0，得到编码长度，避免原编码中的0造成的长度歧义。

4.根据权利要求1所述的一种基于机器学习的图像时空索引快速检索方法，其特征在于：

所述步骤3所使用的深度神经网络结构为：输入一幅固定尺寸的遥感图像，经过卷积层1、卷积层2与全连接层2后，输出编号值；

5.根据权利要求1所述的一种基于机器学习的图像时空索引快速检索方法，其特征在于：

所述步骤3深度神经网络的训练过程为：

步骤4.2、令损失函数：

其中

为标志位输出期望，

为编号输出期望，λ为标志位的损失权重，利用梯度下降优化算法，迭代优化至损失收敛即完成训练。

6.根据权利要求1所述的一种基于机器学习的图像时空索引快速检索方法，其特征在于：

所述步骤4中，随机选取步骤1中所选择区域的一幅没有geohash编码的图像，切割为步骤2中预定的大小，输入到训练完成的深度神剑网络中，得到的输入图像对应的geohash值。