CN115423695A - 一种用于城市预测任务的街景图像采样方法及装置 - Google Patents

一种用于城市预测任务的街景图像采样方法及装置 Download PDF

Info

Publication number
CN115423695A
CN115423695A CN202210837267.0A CN202210837267A CN115423695A CN 115423695 A CN115423695 A CN 115423695A CN 202210837267 A CN202210837267 A CN 202210837267A CN 115423695 A CN115423695 A CN 115423695A
Authority
CN
China
Prior art keywords
street view
view image
image
noise
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210837267.0A
Other languages
English (en)
Other versions
CN115423695B (zh
Inventor
李勇
张国祯
易金辉
金德鹏
王钺
袁坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210837267.0A priority Critical patent/CN115423695B/zh
Priority claimed from CN202210837267.0A external-priority patent/CN115423695B/zh
Publication of CN115423695A publication Critical patent/CN115423695A/zh
Application granted granted Critical
Publication of CN115423695B publication Critical patent/CN115423695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种用于城市预测任务的街景图像采样方法,其中的方法包括:基于动态调整的采样步长,获取目标区域的街景图像,所述街景图像包含预设数量的语义分布信息;对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。该方法结合了采样步长的动态调整,以及图像噪声的检测处理,使得获取的街景图像中不仅包含足够的语义分布信息,且不含噪声,该方法获取的街景图像,能够有效提升城市预测任务的预测性能。

Description

一种用于城市预测任务的街景图像采样方法及装置
技术领域
本发明涉及城市预测技术领域,尤其涉及一种用于城市预测任务的街景图像采样方法及装置。
背景技术
城市化的进展带来了现代化的生活,但是也带来很多的问题,例如交通的拥堵、环境的恶化以及能耗的增加,要解决这些问题,在很多年前看似几乎不可能,但随着人工智能和大数据的到来,利用获取各种各样的大数据,以及强大的计算平台和智能算法,去发现城市正面临的问题,并进一步去解决这些问题,是城市计算大背景下极具挑战但又极具意义的事情。
街景图像数据是城市预测任务最常见的数据源之一,例如,用于评估社会经济发展状况和感知城市物理变化。一般来说,大多数利用街景图像进行城市预测任务的研究包括两个步骤:首先,根据特定的采样算法,例如等距采样方法,对街景图像进行采样;其次,基于采样的街景图像,设计用于城市预测任务的预测算法。
由此可见,目前大多数现有技术专注于预测算法,聚焦于将采样到的街景图片用于下游预测和分析任务,而忽略了采样算法可能对预测结果产生巨大影响的事实。例如,采用不同采样方法获得的图像数据集所包含的信息可能存在很大差异,进而从根本上影响预测结果。
此外,现有技术提供了一种基于道路网络特征的街景数据获取方法,该方法主要关注于利用道路特征做街景地点的选取,然而,该方法并没有与下游预测任务和分析任务结合起来进行评测,从而导致该方法获取的街景数据用于下游任务预测时,预测性能存在较大的局限性。
发明内容
本发明提供一种用于城市预测任务的街景图像采样方法及装置,用以克服现有技术中用于城市预测任务的街景图像含有大量噪声,且缺失有效信息的缺陷,有效提升了城市预测任务的预测性能。
一方面,本发明提供一种用于城市预测任务的街景图像采样方法,包括:基于动态调整的采样步长,获取目标区域的街景图像;对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
进一步地,所述基于动态调整的采样步长,获取目标区域的街景图像,包括:计算所述街景图像的语义分布,以及两张连续的街景图像的语义分布差异;根据所述语义分布差异,按照预设采样步长增加、减小或保持所述采样步长。
进一步地,所述对所述街景图像进行噪声检测,包括:获取所述街景图像的语义标签;根据目标类别语义标签的像素数量,确定所述街景图像是否为高遮挡图像。
进一步地,所述对所述街景图像进行噪声检测,包括:将所述街景图像转换为灰度图像,并计算所述街景图像的平均灰度值;根据所述街景图像的平均灰度值,确定所述街景图像是否为曝光过度图像或曝光不足图像。
进一步地,所述街景图像的语义分布通过语义分割网络计算得到,所述语义分布差异通过JS散度计算得到。
进一步地,所述得到无噪街景图像,之后还包括:利用预先训练的预测模型,提取所述无噪街景图像中的全局特征、方向梯度直方图特征以及语义特征,对所述目标区域的城市预测任务进行预测。
第二方面,本发明还提供一种用于城市预测任务的街景图像采样装置,包括:街景图像获取模块,用于基于动态调整的采样步长,获取目标区域的街景图像;噪声检测模块,用于对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的用于城市预测任务的街景图像采样方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的用于城市预测任务的街景图像采样方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的用于城市预测任务的街景图像采样方法的步骤。
本发明提供的用于城市预测任务的街景图像采样方法,通过基于动态调整的采样步长,获取目标区域内包含预设数量的语义分布信息的街景图像,对获取到的街景图像进行噪声检测,并根据噪声检测结果对街景图像进行处理,以得到无噪街景图像。该方法结合了采样步长的动态调整,以及图像噪声的检测处理,使得获取的街景图像中不仅包含足够的语义分布信息,且不含噪声,通过该方法获取的街景图像,能够有效提升城市预测任务的预测性能,从而在下游的分析和预测任务中能够获取最佳的性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的用于城市预测任务的街景图像采样方法的流程示意图;
图2为本发明提供的用于城市预测任务的街景图像采样方法的城市预测任务示意图;
图3为本发明提供的用于城市预测任务的街景图像采样装置的结构示意图;
图4为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在提出本发明的技术方案之前,将预测任务定为回归问题,通过城市预测任务的预测性能验证本发明的技术方案的合理性。具体地,通过控制变量的方式分别验证采样步长、采样角度以及采样图像质量这三个因素对不同下游城市预测任务的预测性能的影响,例如最常见的三项城市预测任务的预测,即商业活跃度预测、城市活力预测以及城市人口预测。
具体地,在验证不同采样步长对不同城市预测任务的预测性能时,首先,预测性能在不同采样步长下显著不同,街景采样算法确实对预测性能有显著影响。
其次,对于不同的预测任务有着相同的趋势,即当采样步长小于某一采样步长时,预测性能保持稳定,而随着采样步长的增加或减小,预测性能都会变得更糟糕,这表明存在最佳采样步长。较大的步长可能会导致街景图像中信息的丢失,而较小的步长可能会给街景图像数据集带来很多噪音。
在验证不同采样角度对不同城市预测任务的预测性能时,采样角度对城市预测任务的预测结果没有显着影响,即论采样角度如何,在同一位置拍摄的街景图像都包含相似的信息。
在验证不同采样图像质量对不同城市预测任务的预测性能时,由于无法控制采样图像是否为低质量图像,因此,对基础图像数据集进行调整,以获得不同质量的图像数据集。通过验证发现,预测性能会随着采样图像质量的降低而降低,这说明采样图像质量也是影响城市预测任务的预测性能的不可忽略因素。
图1示出了本发明所提供的用于城市预测任务的街景图像采样方法的流程示意图。如图1所示,该方法包括:
S101,基于动态调整的采样步长,获取目标区域的街景图像,街景图像包含预设数量的语义分布信息。
可以理解的是,获取目标区域的街景图像,并且,在获取街景图像的过程中,由于目标区域的地形和环境的变化,需要对采样步长进行动态调整。
容易理解的,若目标区域中某一子区域有大规模的植被,在沿该区域进行街景图像采样时,采样步长较小,则会导致连续采样得到的街景图像中的信息相似,甚至相同;反之,若目标区域中某一子区域建筑密度比较密集,在沿该道路进行街景图像采样时,采样步长过大,就会损失掉街景图像中的一些有用信息。因此,在街景图像的采样过程中,动态调整采样步长,十分必要。
动态调整采样步长,具体地,可以根据两张或多张连续采样的街景图像的相似度对采样步长进行动态调整,也即若采样得到的两张或多张连续的街景图像的相似度达到第一预设阈值,那么就需要增加采样步长;若采样得到的两张或多张连续的街景图像的相似度低于第二预设阈值,那么就需要减小采样步长。其中,第一预设阈值大于第一预设阈值。
其中,目标区域可以为有城市预测任务的区域,或附有城市预测任务的区域的任一子区域,也可以为任一有街景图像采样需求的区域。
还需要说明的是,基于动态调整的采样步长,获取得到的目标区域的街景图像,相较于未调整采样步长而获取的街景图像而言,其包含的语义分布信息更多,避免了因较大的采样步长导致信息丢失,以及因较小的采样步长而无法引入更多信息的情况。
预设数量的语义分布信息,是指获取的街景图像中各种类别特征的分布情况,例如街景图像中的地形、植被、交通标志、交通灯、人行道、公共汽车以及人的分布情况。
预设数量可根据实际情况进行设置,例如,设置某一街景图像中相应特征的总类别达到预设数量,或者某一具体类别特征的数量需达到预设数量。
S102,对街景图像进行噪声检测,并根据噪声检测结果对街景图像进行处理,得到无噪街景图像。
在上一步骤S101基于动态调整的采样步长,获取目标区域的街景图像的基础上,对获取到的街景图像进行噪声检测,并根据噪声检测的结果,对街景图像进行去噪或降噪处理,从而得到无噪街景图像。
对街景图像进行噪声检测,是指从采样的街景图像中检测出低质量的街景图像,其中,低质量的街景图像包括高遮挡图像、亮暗度和/或清晰度不达标的图像。例如,曝光度过高或太低的街景图像,以及清晰度不够的街景图像。
根据噪声检测结果对街景图像进行处理,具体地,可以将含有噪声的街景图像删除,并在该街景图像对应的采样点重新采样,以重新获取的高质量街景图像替换低质量街景图像,通过控制替换掉的低质量图像的比例来操纵街景图像的采样质量。
需要说明的是,在重新采样的过程中,也是基于动态调整的采样步长,对同一采样位置的街景图像进行采样,以保证获取的街景图像中的信息量。并且,由于采样角度对城市预测任务的预测性能影响很小,因此,重新采样时,可以就检测到的低质量图像在同一采样位置,以不同的采样角度对街景图像进行重新采样。除了上述摘除并替换的方式以外,还可以通过空间域滤波、变换域滤波、偏微分方程、变分法以及形态学噪声滤波器的方式对含有噪声的街景图像进行降噪处理,在此不作具体限定。
还需要说明的是,步骤S101中所包含的动态调整采样步长这一操作,与步骤S102中对街景图像进行噪声检测这一操作,二者之间不存在严格意义上的逻辑关联,动态调整采样步长这一操作贯穿于整个采样方法,而最后获取的无噪街景图像也必然经过噪声检测处理。
换句话说,既可以先动态调整采样步长,后针对基于最佳采样步长获取的街景图像进行噪声检测处理,也可以先对获取的街景图像进行噪声检测,而后针对检测到的含有噪声的街景图像进行重新采样,在重新采样的过程中,适用动态调整采样步长这一操作。
在一个具体的实施例中,需要对北京市的城市人口分布情况进行预测,首先,按照二级街道对北京市进行区域划分,得到多个目标区域;然后获取目标区域的街景图像,在街景图像采样的过程中,通过增加或减小采样步长的方式,动态调整采样步长,以保证获取的街景图像能够包含大量的语义信息,进而使得城市预测任务的预测性能更高效;最后,对获取到的街景图像进行噪声检测,并根据噪声检测结果对街景图像进行降噪或去噪处理,从而得到无噪街景图像。
在本实施例中,通过基于动态调整的采样步长,获取目标区域内包含预设数量的语义分布信息的街景图像,对获取到的街景图像进行噪声检测,并根据噪声检测结果对街景图像进行处理,以得到无噪街景图像。该方法结合了采样步长的动态调整,以及图像噪声的检测处理,使得获取的街景图像中不仅包含足够的语义分布信息,且不含噪声,该方法获取的街景图像,能够有效了提升城市预测任务的预测性能,从而在下游的分析和预测任务中能够获取最佳的性能。
在上述实施例的基础上,进一步地,基于动态调整的采样步长,获取目标区域的街景图像,包括:计算街景图像的语义分布,以及两张连续的街景图像的语义分布差异;根据语义分布差异,按照预设采样步长增加、减小或保持采样步长。
可以理解的是,基于动态调整的采样步长,获取目标区域的街景图像,具体地,通过语义分割网络计算获取的每一街景图像的语义分布,通过JS散度计算两张连续的街景图像的语义分布差异,并根据两张连续的街景图像的语义分布差异,按照预设的采样步长,增加、减小或保持采样步长。
计算每一街景图像的语义分布,具体地,可以通过DeepLabv3+计算每张街景图像的语义分布。DeepLabv3+是一种语义分割网络,一方面,该语义分割网络采用了编码-解码结构,该结构可以在提升分割效果的同时,关注街景图像边界的信息;第二方面,该语义分割网络还采用了空洞空间金字塔池化,用不同的感受野和上采样,实现街景图像的多尺度提取特征;第三方面,该语义分割网络还采用了深度可分离卷积,可以降低参数数列,提高计算效率。
计算两张连续的街景图像的语义分布差异,具体地,提高JS散度计算两张连续街景图像的语义分布之间的差异,计算公式如下:
Figure BDA0003749074070000081
Figure BDA0003749074070000082
其中,p1和p2为两张连续的街景图像,DKL(n|m)为语义分布m和语义分布n之间的KL散度,进一步地,
Figure BDA0003749074070000091
n为两张连续的街景图像之一,即p1或p2,I为街景图像中语义标签的总类别数量,x为街景图像中的语义标签,i为街景图像中语义标签的类别标号。
根据上述计算公式,可以计算得到两张连续的街景图像的语义分布差异,在此基础上,根据语义分布差异,按照预设采样步长增加、减小或保持采样步长。具体地,当两张连续的街景图像的语义分布,即JSD(p1||p2)大于预设语义分布差异上限时,按照预设采样步长增加采样步长;当两张连续的街景图像的语义分布小于预设语义分布差异下限时,减小采样步长;当两张连续的街景图像的语义分布恰为预设语义分布差异时,则保持采样步长不变。
其中,预设采样步长,可以为一个具体的采样步长值,例如,预设采样步长为10米,也可以为基于该预设采样步长而预先设置的一组采样步长档次,例如为{λ01,...,λk},其中λ01<...<λk
设置预设采样步长,以预设采样步长为预先设置的一组采样步长档次为例,首先,将基本采样步长设置为10米,并在包含除目标区域以外的其他所有区域的街景图像组成的训练集上训练预测模型。然后,在具有不同采样步长的目标区域获得的街景图像集上,测试经过训练的预测模型的性能,以找到预测采样步长的最佳模型。
经过验证得到,大多数区域的最优采样步长为10米,其次是3、6和20米。较大的步长可能会导致信息丢失,而较小的步长则无法引入更多信息,而城市中建筑物的规模通常为10米。
并且,通过验证还发现,最优采样步长与目标区域内地形、天空和植被的比例呈正相关,而与建筑物和汽车的比例呈负相关,这表明在具有更大的植被规模或更低的建筑密度的区域进行街景图像采样时,应该有更大的采样步长,反之,则应该有更小的采样步长。
例如,在繁华的购物中心和繁忙的交通区域,最佳采样步长应该减小一些,而在郊区或公园区域,最佳采样步长应该增大一些。
根据上述,在一个具体的实施例中,预设采样步长为10米。在另外一个具体的实施例中,还可以基于预设采样步长设置一组采样步长档次{10m,20m,30m,40m,50m}。
下表中的实施例示出了基于动态调整的采样步长,获取目标区域的街景图像的详细过程:
Figure BDA0003749074070000101
在上表中,以基本采样步长档次、初始采样位置和采样区域为输入,以目标区域的街景图像为输出。具体地,在位置L处采样得到街景图像,计算获取的街景图像的语义分布,并将计算得到的两张连续的街景图像的语义分布差异JSD(sj,sj-1),与预设语义分布差异上限值t和预设语义分布差异限值t进行比较,从而确定按照预设采样步长增加、减少或保持采样步长。
在本实施例中,通过计算街景图像的语义分布,以及两张连续的街景图像的语义分布差异,并根据语义分布差异,按照预设采样步长在增加、减小或保持采样步长,有效避免了因较大的采样步长导致信息丢失,以及因较小的采样步长而无法引入更多信息的情况,通过采样得到的街景图像,能够有效提升后续城市预测任务的预测性能。
在上述实施例的基础上,进一步地,对街景图像进行噪声检测,包括:获取街景图像的语义标签;根据目标类别语义标签的像素数量,确定街景图像是否为高遮挡图像。以及,将街景图像转换为灰度图像,并计算街景图像的平均灰度值;根据街景图像的平均灰度值,确定街景图像是否为曝光过度图像或曝光不足图像。
可以理解的是,对街景图像进行噪声检测,包括从获取的街景图像中检测出低质量街景图像,其中,低质量街景图像包括高遮挡图像、曝光过度图像以及曝光不足图像。
从获取的街景图像中检测高遮挡图像,具体地,使用DeepLabv3+获取街景图像的像素级别的语义标签,若该街景图像中目标类别语义标签的像素数量,高于预设像素阈值,则可以确定该街景图像为高遮挡图像,即为低质量街景图像。
从获取的街景图像中检测曝光过度图像和曝光不足图像,具体地,将街景图像转换为灰度图像,然后计算该街景图像的平均灰度值,将计算得到的平均灰度值,若平均灰度值高于预设上限阈值,则可以确定该街景图像为曝光过度图像,若平均灰度值低于预设下限阈值,则可以确定该街景图像为曝光不足图像。
其中,预设像素阈值、预设上限阈值以及预设下限阈值,可以根据实际情况进行设置。例如,在一个具体的实施例中,预设像素阈值为0.3,预设上限阈值为165,预设下限阈值为65。
例如,下表中的实施例示出了对获取的街景图像进行噪声检测的详细过程:
Figure BDA0003749074070000121
在上表中,以获取的街景图像集作为输入,以降噪后的街景图像及其对应的图像索引作为输出,具体地,提取输入的街景图像的语义标签,获取目标类别语义标签,即街景图像中为卡车和公共汽车的语义标签,即struck和sbus,若街景图像中卡车的像素数量高于预设像素上限阈值tbus,或街景图像中公共汽车的像素数量高于预设像素上限阈值ttruck,则说明该街景图像为高遮挡图像。
进一步地,将该街景图像转换为灰度图像,并计算灰度图像中所有像素的平均灰度值δ,若计算得到的平均灰度值高于预设上限阈值thigh,则可以确定该街景图像为曝光过度图像;若平均灰度值低于预设下限阈值tlow,则可以确定该街景图像为曝光不足图像。
在从获取的街景图像中检测出上述高遮挡图像、曝光不足图像或曝光过度图像之后,可以在获取该街景图像的同一位置重新采样。具体地,由于采样角度对城市预测任务的预测性能影响很小,因此,可以就检测到的低质量图像在同一采样位置,以不同的采样角度对街景图像进行重新采样,重新采样之后在此对街景图像进行噪声检测,以此往复,直至获取的街景图像中未检测出低质量图像为止,即得到无噪街景图像为止。
在本实施例中,通过对街景图像进行噪声检测,从获取的街景图像中检测出高遮挡图像、曝光过度图像以及曝光不足图像,并对检测到的含有噪声的这些图像进行处理,以得到无噪街景图像,能够有效去除街景图像中的噪声。
在上述实施例的基础上,进一步地,得到无噪街景图像,之后还包括:利用预先训练的预测模型,提取无噪街景图像中的全局特征、方向梯度直方图特征以及语义特征,对目标区域的城市预测任务进行预测。
可以理解的是,在得到无噪街景图像之后,可以将其应用于城市预测任务,具体地,利用预先训练好的预测模型,提取无噪街景图像中的全局特征即GIST特征、方向梯度直方图特征(Histogram of Or iented Gradient,HOG)以及语义特征,从而根据这些特征对目标区域的城市预测任务进行预测。其中,HOG特征和GIST特征都是图像描述符,HOG特征是一种低级的视觉感知特征,而GIST特征则对街景图像进行全局编码并忽略局部细节。
在一个具体的实施例中,图2示出了本发明所提供的用于城市预测任务的街景图像采样方法的城市预测任务示意图。如图2所示,在大小为64×128个像素的随机提取的街景图像块上,提取HOG特征和GIST特征这两个特征,并使用特征袋(BoF)生成目标区域的特征。
具体来说,本发明所提供的用于城市预测任务的街景图像采样方法,简称为DAS(Denoising and Adaptive Sampling algorithm),对于利用该街景图像采样方法得到的无噪街景图像,首先,使用滑动窗口将每张无噪街景图像分成64个街景图像块。其次,对于每个街景图像块,应用获得512维的GIST特征向量和756维的HOG特征向量。进一步地,将获得的两个特征向量即GIST特征向量和HOG特征向量,连接起来作为这个街景图像块的特征。最后,我们使用K-means算法对一个目标区域的所有无噪街景图像的街景图像块进行聚类,并使用BoF获得一个目标区域的视觉特征。K-means的最优超参数可以通过网格搜索确定。
对于语义特征,应用语义分割算法DeepLabv3+,将每个无噪街景图像按像素划分为20个类别的语义标签,具体包括地形、植被、天空、墙壁、建筑物、道路、交通标志、交通灯、人行道、围栏、杆子、公共汽车、火车、卡车、汽车、自行车、摩托车、骑手、人以及未知。
在此基础上,为了获取城市中每个目标区域的对应的语义特征,设计了一个包含三个步骤的语义特征提取器:首先,计算每张街景图像的语义分布,并将一个城市目标区域中的所有街景图像定义为一个集合。然后,计算每个街景图像集合中每个语义维度的均值、方差、最大值、最小值、峰度和偏度,并得到城市中每个目标区域的特征。与此同时,还可以使用Yolov4提取无噪街景图像中的数值特征,包括每个目标区域的人数、自行车、汽车、摩托车、公共汽车和卡车的数量。最后,将所有特征拼接在一起,作为目标区域的语义特征。
在本实施例中,可以通过5折交叉验证,并使用回归模型最常用的指标之一即R平方值,来评估分析城市预测任务的预测性能。具体地,通过两种不同的预测模型,即XGBoost和/或随机森林来进行预测,对于这两种模型,均对重要的超参数进行网格搜索,从而得到最佳设置。
具体来说,对于XGBoost模型,在{3,4,5,6,7,8,9,10}中搜索eta,以及在{1,2,3,4,5,6}中搜索生成节点的最小权重,以及{3,4,5,6,7,8,9,10}中搜索单棵树的最大深度。对于随机森林模型,在{20,50,100,200,500}中搜索决策树的数量,以及在{6,7,8,9,10,11,12}中搜索单棵树的最大深度。
在本实施例中,通过利用预先训练好的预测模型,提取无噪街景图像中的全局特征、方向梯度直方图特征以及语义特征,对目标区域的城市预测任务进行预测,因无噪街景图像中不仅包含足够的语义分布信息,且不含噪声,从而,基于无噪街景图像进行预测,可以有效提升城市预测任务的预测性能。
需要说明的是,目前大多数现有技术专注于预测算法,聚焦于将采样到的街景图片用于下游预测和分析任务,忽略了采样算法可能对预测结果产生巨大影响的事实,而现有街景图像采样方法又没有与下游预测任务和分析任务结合起来进行评测,从而导致该采样方法获取的街景数据用于下游任务预测时,预测性能存在较大的局限性。
本申请所提供的用于城市预测任务的街景图像采样方法及装置,包含了一个去噪模块(即噪声检测处理操作)和一个自适应采样模块(即动态调整采样步长操作),其中的去噪模块可以消除街景图像存在的噪声,自适应采样模块可以使得获取的街景图像中包含足够的语义分布信息,该采样方法能够有效提升城市预测任务的预测性能,从而在下游的分析和预测任务中获取最佳的性能。
图3示出了本发明所提供的用于城市预测任务的街景图像采样装置的结构示意图。如图3所示,该装置包括:街景图像获取模块301,用于基于动态调整的采样步长,获取目标区域的街景图像,街景图像包含预设数量的语义分布信息;噪声检测模块302,用于对街景图像进行噪声检测,并根据噪声检测结果对街景图像进行处理,得到无噪街景图像。
在本实施例中,通过街景图像获取模块301基于动态调整的采样步长,获取目标区域内包含预设数量的语义分布信息的街景图像,噪声检测模块302对获取到的街景图像进行噪声检测,并根据噪声检测结果对街景图像进行处理,以得到无噪街景图像。该装置结合了采样步长的动态调整,以及图像噪声的检测处理,使得获取的街景图像中不仅包含足够的语义分布信息,且不含噪声,该装置获取的街景图像,能够有效提升城市预测任务的预测性能。
本发明提供的用于城市预测任务的街景图像采样装置,与上文描述的用于城市预测任务的街景图像采样方法可相互对应参照,在此不再赘述。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communicati ons Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行用于城市预测任务的街景图像采样方法,该方法包括:基于动态调整的采样步长,获取目标区域的街景图像,所述街景图像包含预设数量的语义分布信息;对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的用于城市预测任务的街景图像采样方法,该方法包括:基于动态调整的采样步长,获取目标区域的街景图像,所述街景图像包含预设数量的语义分布信息;对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的用于城市预测任务的街景图像采样方法,该方法包括:基于动态调整的采样步长,获取目标区域的街景图像,所述街景图像包含预设数量的语义分布信息;对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于城市预测任务的街景图像采样方法,其特征在于,包括:
基于动态调整的采样步长,获取目标区域的街景图像;
对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
2.根据权利要求1所述的用于城市预测任务的街景图像采样方法,其特征在于,所述基于动态调整的采样步长,获取目标区域的街景图像,包括:
计算所述街景图像的语义分布,以及两张连续的街景图像的语义分布差异;
根据所述语义分布差异,按照预设采样步长增加、减小或保持所述采样步长。
3.根据权利要求1所述的用于城市预测任务的街景图像采样方法,其特征在于,所述对所述街景图像进行噪声检测,包括:
获取所述街景图像的语义标签;
根据目标类别语义标签的像素数量,确定所述街景图像是否为高遮挡图像。
4.根据权利要求1所述的用于城市预测任务的街景图像采样方法,其特征在于,所述对所述街景图像进行噪声检测,包括:
将所述街景图像转换为灰度图像,并计算所述街景图像的平均灰度值;
根据所述街景图像的平均灰度值,确定所述街景图像是否为曝光过度图像或曝光不足图像。
5.根据权利要求2所述的用于城市预测任务的街景图像采样方法,其特征在于,所述街景图像的语义分布通过语义分割网络计算得到,所述语义分布差异通过JS散度计算得到。
6.根据权利要求1-5中任一项所述的用于城市预测任务的街景图像采样方法,其特征在于,所述得到无噪街景图像,之后还包括:
利用预先训练的预测模型,提取所述无噪街景图像中的全局特征、方向梯度直方图特征以及语义特征,对所述目标区域的城市预测任务进行预测。
7.一种用于城市预测任务的街景图像采样装置,其特征在于,包括:
街景图像获取模块,用于基于动态调整的采样步长,获取目标区域的街景图像;
噪声检测模块,用于对所述街景图像进行噪声检测,并根据噪声检测结果对所述街景图像进行处理,得到无噪街景图像。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的用于城市预测任务的街景图像采样方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的用于城市预测任务的街景图像采样方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的用于城市预测任务的街景图像采样方法的步骤。
CN202210837267.0A 2022-07-15 一种用于城市预测任务的街景图像采样方法及装置 Active CN115423695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210837267.0A CN115423695B (zh) 2022-07-15 一种用于城市预测任务的街景图像采样方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210837267.0A CN115423695B (zh) 2022-07-15 一种用于城市预测任务的街景图像采样方法及装置

Publications (2)

Publication Number Publication Date
CN115423695A true CN115423695A (zh) 2022-12-02
CN115423695B CN115423695B (zh) 2024-05-31

Family

ID=

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110310245A1 (en) * 2010-06-21 2011-12-22 Nissan Motor Co., Ltd. Travel distance detection device and travel distance detection method
WO2017128750A1 (zh) * 2016-01-28 2017-08-03 中兴通讯股份有限公司 一种图像采集方法和图像采集装置
US20180084274A1 (en) * 2015-05-21 2018-03-22 Olympus Corporation Image acquisition device, image processing device, image processing method, image processing program, and storage medium
KR101924732B1 (ko) * 2017-08-24 2018-12-05 주식회사에어플러그 운행중 차량 외부환경에 대한 데이터를 획득하여 통신망을 통해 수집장치에 제공하는 방법과 이를 위한 장치
CN110378853A (zh) * 2019-07-11 2019-10-25 Oppo广东移动通信有限公司 深度图处理方法和装置
CN110766007A (zh) * 2019-10-28 2020-02-07 深圳前海微众银行股份有限公司 证件遮挡检测方法、装置、设备及可读存储介质
CN111582201A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于几何注意力感知的车道线检测系统
CN112733802A (zh) * 2021-01-25 2021-04-30 腾讯科技(深圳)有限公司 图像的遮挡检测方法、装置、电子设备及存储介质
CN114220017A (zh) * 2022-02-23 2022-03-22 广东省科学院广州地理研究所 遥感数据尺度自适应调整方法、装置、存储介质及设备
CN114255377A (zh) * 2021-12-02 2022-03-29 青岛图灵科技有限公司 一种智能货柜的差异商品检测分类方法
CN114358660A (zh) * 2022-03-10 2022-04-15 武汉市规划研究院 一种城市街道品质评估方法、系统及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110310245A1 (en) * 2010-06-21 2011-12-22 Nissan Motor Co., Ltd. Travel distance detection device and travel distance detection method
US20180084274A1 (en) * 2015-05-21 2018-03-22 Olympus Corporation Image acquisition device, image processing device, image processing method, image processing program, and storage medium
WO2017128750A1 (zh) * 2016-01-28 2017-08-03 中兴通讯股份有限公司 一种图像采集方法和图像采集装置
KR101924732B1 (ko) * 2017-08-24 2018-12-05 주식회사에어플러그 운행중 차량 외부환경에 대한 데이터를 획득하여 통신망을 통해 수집장치에 제공하는 방법과 이를 위한 장치
CN110378853A (zh) * 2019-07-11 2019-10-25 Oppo广东移动通信有限公司 深度图处理方法和装置
CN110766007A (zh) * 2019-10-28 2020-02-07 深圳前海微众银行股份有限公司 证件遮挡检测方法、装置、设备及可读存储介质
CN111582201A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于几何注意力感知的车道线检测系统
CN112733802A (zh) * 2021-01-25 2021-04-30 腾讯科技(深圳)有限公司 图像的遮挡检测方法、装置、电子设备及存储介质
CN114255377A (zh) * 2021-12-02 2022-03-29 青岛图灵科技有限公司 一种智能货柜的差异商品检测分类方法
CN114220017A (zh) * 2022-02-23 2022-03-22 广东省科学院广州地理研究所 遥感数据尺度自适应调整方法、装置、存储介质及设备
CN114358660A (zh) * 2022-03-10 2022-04-15 武汉市规划研究院 一种城市街道品质评估方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANTONIO TAVERA ET.AL: "Augmentation Invariance and Adaptive Sampling in Semantic Segmentation of Agricultural Aerial Images", 《RESEARCHGATE》, 21 April 2022 (2022-04-21), pages 1 - 10 *
张小芸: "基于改进的Unet地表覆盖遥感图像语义分割算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 March 2022 (2022-03-15) *

Similar Documents

Publication Publication Date Title
CN112001385B (zh) 一种目标跨域检测与理解方法、系统、设备及存储介质
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN108830196A (zh) 基于特征金字塔网络的行人检测方法
CN110807757B (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN109840483B (zh) 一种滑坡裂缝检测与识别的方法及装置
Gao et al. Generative adversarial networks for road crack image segmentation
CN112906485A (zh) 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN110826429A (zh) 一种基于景区视频的旅游突发事件自动监测的方法及系统
CN110717886A (zh) 复杂环境下基于机器视觉的路面坑塘检测方法
Vaiyapuri et al. Automatic Vehicle License Plate Recognition Using Optimal Deep Learning Model.
Xing et al. Traffic sign recognition using guided image filtering
CN114693924A (zh) 一种基于多模型融合的道路场景语义分割方法
CN115527133A (zh) 一种基于目标密度信息的高分图像背景优化方法
CN114842507A (zh) 一种基于组优化奖励的强化行人属性识别方法
CN116597270A (zh) 基于注意力机制集成学习网络的道路损毁目标检测方法
Huang et al. A safety vehicle detection mechanism based on YOLOv5
CN117152414A (zh) 一种基于尺度注意力辅助学习方法的目标检测方法及系统
CN116740495A (zh) 路桥隧道的病害检测模型的训练方法和病害检测方法
CN115423695B (zh) 一种用于城市预测任务的街景图像采样方法及装置
CN115423695A (zh) 一种用于城市预测任务的街景图像采样方法及装置
CN116362294A (zh) 一种神经网络搜索方法、装置和可读存储介质
CN116630683A (zh) 一种基于扩散的自适应特征提取的道路损伤检测方法
Zhao et al. Fast traffic sign recognition algorithm based on multi-scale convolutional neural network
CN114419018A (zh) 图像采样方法、系统、设备及介质
CN104112144A (zh) 人车识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant