CN116343104A - 视觉特征与向量语义空间耦合的地图场景识别方法及系统 - Google Patents
视觉特征与向量语义空间耦合的地图场景识别方法及系统 Download PDFInfo
- Publication number
- CN116343104A CN116343104A CN202310054450.8A CN202310054450A CN116343104A CN 116343104 A CN116343104 A CN 116343104A CN 202310054450 A CN202310054450 A CN 202310054450A CN 116343104 A CN116343104 A CN 116343104A
- Authority
- CN
- China
- Prior art keywords
- scene
- grid map
- map
- grid
- scene type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 title claims abstract description 38
- 230000008878 coupling Effects 0.000 title claims abstract description 20
- 238000010168 coupling process Methods 0.000 title claims abstract description 20
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 7
- 230000008451 emotion Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了视觉特征与向量语义空间耦合的地图场景识别方法及系统,本发明将卷积神经网络所提取的多层次视觉特征和地图语义信息相结合,对现有的地图场景识别方法进行进一步的优化和改进,使之能够具备一定的逻辑推理和知识泛化能力,适应于复杂的地图场景识别。既可有效利用现有先进的深度卷积神经网络在视觉特征提取和特征识别的强大能力,又可利用地图语义分析的手段赋予模型逻辑推理的能力。本发明为利用地理空间人工智能技术对泛源地图进行分析,并结合语义信息对复杂泛源地图场景进行识别提供一种可行的实现途径。并且可为地图内容识别、泛源地图检索、空间情感等等提供直接的参考和支持。
Description
技术领域
本发明属于栅格地图大数据处理与分析领域,特别涉及视觉特征与向量语义空间耦合的地图场景识别方法及系统。
背景技术
海量的数字地图成为人们日常生活和生产过程中了解认识现实世界的重要参考资料。这些地图场景复杂,并且,大部分地图资源并没有被发现、获取和有效地利用过,造成了地图数据资源的浪费。与此同时,研究制图与地图可视化的学者发现在不同领域的多数应用中所采用的数字地图数据并不能与实际的应用需求完全匹配。鉴于地图的影响力日益增强,急需一种精确、高效的数字地图识别技术,实现对数字地图数据的准确获取,有助于数字地图资源的高效利用,有效实现对包含非法内容的数字地图的筛除,并进一步提升数字地图资源对于生活和生产的促进和发展作用。特别是地图大数据时代以来,随着支持大规模运算的GPU硬件的普及,以及深度卷积神经网络的爆炸式发展,数字地图识别所必须的理论和技术要求已经发生了革命性的变化,多种形态的地理空间人工智能技术极大地促进了地图大数据场景分类和识别中的运用。泛源地图场景识别属于测绘地图大数据研究中的高级解译阶段,是研究地图中所包含的场景模式,以及场景模式的下的潜在信息。然而,传统的地图处理算法、面向对象的地图分析、机器学习等等主要关注于对预定地图场景进行分类,单纯的分类结果往往无法表征复杂的地图场景。现有的通过卷积神经网络进行场景识别也是依赖于完备的地图标注数据,往往只能识别预定的地图场景,不具备逻辑推理和泛化的知识能力。而来源广泛的地图,即泛源地图场景则十分复杂,描述同一类地物和现象的地图场景往往具有很大的差异性。因此,需要对现有的地图场景分类方法进行进一步的优化和改进,使之能够具备一定的逻辑推理和知识泛化能力,适应于复杂的泛源地图场景识别。
发明内容
本发明所要解决的技术问题是:针对地图场景识别,传统的地图处理算法、面向对象的地图分析、机器学习等等主要关注于对预定地图场景进行分类,单纯的分类结果往往无法表征复杂的地图场景。现有的通过卷积神经网络进行场景识别也是依赖于完备的地图标注数据,往往只能识别预定的地图场景,不具备逻辑推理和泛化的知识能力。而泛源地图场景则十分复杂,描述同一类地物和现象的地图场景往往具有很大的差异性。
为解决上述技术问题,本发明提出了视觉特征与向量语义空间耦合的地图场景识别方法及系统,采用以下技术方案:
一种视觉特征与向量语义空间耦合的地图场景识别方法,分别针对待处理栅格地图数据库中的各栅格地图,执行以下步骤,对栅格地图进行场景识别,获得各栅格地图分别对应的场景表征:
步骤A:针对栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对该栅格地图进行多标签分类,获得该栅格地图对应的各场景类型、以及各场景类型分别对应的概率;进而获得该栅格地图对应的场景类型结果;
步骤B:基于该栅格地图对应的场景类型结果,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重;
步骤C:基于该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,获得该栅格地图对应的场景表征。
作为本发明的一种优选技术方案,所述步骤A中,具体执行以下步骤,获得该栅格地图对应的场景类型结果:
步骤A1:针对待处理栅格地图数据库中的栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对该栅格地图进行多标签分类,获得该栅格地图对应的各场景类型和各场景类型分别对应的概率;
步骤A2:基于该栅格地图对应的各场景类型、以及各场景类型分别对应的概率,结合预设概率阈值,判断满足预设概率阈值的场景类型数量是否大于1,若满足预设概率阈值的场景类型数量不大于1,则满足预设概率阈值对应的场景类型,作为该栅格地图对应的场景类型结果;若满足预设概率阈值的场景类型数量大于1,迭代执行以下步骤,获得该栅格地图对应的场景类型结果:
步骤A2.1:将栅格地图基于预设网格划分,获得预设个数子栅格地图;基于预设栅格地图尺寸,判断网格划分后的各子栅格地图是否小于预设栅格地图尺寸,若网格划分后的各子栅格地图均小于预设栅格地图尺寸,则当前在各迭代中满足预设概率阈值对应的各场景类型,作为该栅格地图对应的场景类型结果;若网格划分后的各子栅格地图中存在不小于预设栅格地图尺寸的子栅格地图,则不小于预设栅格地图尺寸的子栅格地图执行步骤A2.2;
步骤A2.2:针对不小于预设栅格地图尺寸的子栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对子栅格地图进行多标签分类,获得子栅格地图分应的各场景类型、以及各场景类型分别对应的概率;执行A2.3;
步骤A2.3:基于子栅格地图对应的各场景类型和各场景类型分别对应的概率,结合预设概率阈值,判断各子栅格地图分别对应的满足预设概率阈值的场景类型数量是否大于1,若各子栅格地图分别对应的满足预设概率阈值的场景类型数量均不大于1,则当前在各迭代中满足预设概率阈值对应的各场景类型,作为该栅格地图对应的场景类型结果;若各子栅格地图中存在子栅格地图对应的满足预设概率阈值的场景类型数量大于1,则对应的满足预设概率阈值的场景类型数量大于1的子栅格地图返回执行步骤A2.1,将子栅格地图作为栅格地图进行预设网格划分。
作为本发明的一种优选技术方案,所述步骤B中,基于该栅格地图对应的场景类型结果,具体执行以下步骤,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重:
步骤B1:针对该栅格地图对应的场景类型结果中的各场景类型,通过以下公式,计算各场景类型在该栅格地图中的频率;
式中,cfc表示场景类型c在该栅格地图中出现的频率,freqc表示该栅格地图对应的场景类型结果中是否存在场景类型c,存在时freqc=1,不存在时freqc=0;freqk,s,c表示第k次网格划分获得的子栅格地图s对应的场景类型结果中是否存在场景类型c,存在时freqk,s,c=1,不存在时freqk,s,c=0;sk表示第k次网格划分获得的子栅格地图总数量;b表示栅格地图进行网格划分获得的预设个数子栅格地图数量;
步骤B2:基于各场景类型在该栅格地图中的频率,通过以下公式,计算各场景类型的的反频率;
式中,a=mo/mmin,mo表示该栅格地图尺寸、mmin表示最后一次网格划分的子栅格地图中尺寸最小的子栅格地图尺寸;imfc表示场景类型c在该栅格地图中出现的反频率;kmax表示网格划分的总次数;
步骤B3:基于该栅格地图对应的场景类型结果中的各场景类型在该栅格地图中的频率、以及各场景类型的的反频率,通过以下公式,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重;
wc=cfc×imfc
式中,wc表示场景类型c在该栅格地图中的权重。
作为本发明的一种优选技术方案,所述步骤C中,基于该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,获得该栅格地图对应的场景表征W如下所示:
W=[w1,w2,...wc...,wn]
式中,wc表示场景类型c在该栅格地图中的权重;n表示预设各场景类型总数,对于该栅格地图对应的场景类型结果中不包含的各场景类型的权重取0。
作为本发明的一种优选技术方案,基于待处理栅格地图数据库中的各栅格地图分别对应的场景表征,针对待处理栅格地图数据库中的目标栅格地图,通过以下公式,获得目标栅格地图与待处理栅格地图数据库中栅格地图的场景相似度,进而实现两栅格地图场景相似识别:
式中,Ii表示对待处理栅格地图数据库中的目标栅格地图;Ij表示待处理栅格地图数据库中的任意一栅格地图;sim(Ii,Ij)表示栅格地图Ii和Ij的场景相似度,wi,c表示场景类型c在栅格地图Ii中的权重,wj,c表示场景类型c在栅格地图Ij中的权重;n表示预设各场景类型总数。
作为本发明的一种优选技术方案,针对该栅格地图对应的场景类型结果,基于文档词条矩阵,建立地图视觉场景—地图语义模型,用于执行步骤B-C;
地图视觉场景—地图语义模型中:将预设各场景类型对应词;该栅格地图划分的子栅格地图对应文档词条矩阵中的文本;该栅格地图对应文档词条矩阵中的文本集;该栅格地图对应的场景表征对应文档词条矩阵中的文本集主题。
作为本发明的一种优选技术方案,所述分类模型采用预设深度卷积神经网络。
一种基于所述一种视觉特征与向量语义空间耦合的地图场景识别方法的系统,包括多标签分类模块、场景类型结果识别模块、权重计算模块、场景表征模块,
分别针对待处理栅格地图数据库中的各栅格地图,结合预设各场景类型,多标签分类模型用于对栅格地图进行多标签分类,获得栅格地图对应的各场景类型、以及各场景类型分别对应的概率;
场景类型结果识别模块基于栅格地图对应的各场景类型、以及各场景类型分别对应的概率,用于获得栅格地图对应的场景类型结果;
权重计算模块基于栅格地图对应的场景类型结果,用于获得栅格地图对应的场景类型结果中各场景类型分别在栅格地图中的权重;
场景表征模块基于栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,用于获得栅格地图对应的场景表征。
作为本发明的一种优选技术方案,还包括地图相似度计算模块,基于待处理栅格地图数据库中的各栅格地图分别对应的场景表征,针对待处理栅格地图数据库中的目标栅格地图,地图相似度计算模块用于计算目标栅格地图与待处理栅格地图数据库中栅格地图的场景相似度。
一种视觉特征与向量语义空间耦合的栅格地图场景识别终端,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机程序,所述处理器通过执行所述计算机程序,从而执行所述一种视觉特征与向量语义空间耦合的地图场景识别方法。
本发明的有益效果是:本发明提出了视觉特征与向量语义空间耦合的地图场景识别方法及系统,本发明将卷积神经网络所提取的多层次视觉特征和地图语义信息相结合,对现有的地图场景识别方法进行进一步的优化和改进,使之能够具备一定的逻辑推理和知识泛化能力,适应于复杂的地图场景识别,既可有效利用现有先进的深度卷积神经网络在视觉特征提取和特征识别的强大能力,又可利用地图语义分析的手段赋予模型逻辑推理的能力,并且进一步提升了场景相似度识别的精度。本发明可为地图内容识别、泛源地图检索、空间情感等等提供直接的参考和支持。
附图说明
图1为本发明实施例的原理图;
图2为本发明实施例中网格划分流程的示例图;
图3为本发明实施例中多标签分类计算的示例图;
图4为本发明实施例中地图场景多标签分类信息映射到文本语义的示例图。
具体实施方式
下面结合附图对本发明进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
一种视觉特征与向量语义空间耦合的地图场景识别方法,如图1所示,分别针对待处理栅格地图数据库中的各栅格地图,执行以下步骤,对栅格地图进行场景识别,获得各栅格地图分别对应的场景表征:
步骤A:针对栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对该栅格地图进行多标签分类,获得该栅格地图对应的各场景类型、以及各场景类型分别对应的概率;进而获得该栅格地图对应的场景类型结果。
所述步骤A中,具体执行以下步骤,获得该栅格地图对应的场景类型结果:
步骤A1:针对待处理栅格地图数据库中的栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对该栅格地图进行多标签分类,获得该栅格地图对应的各场景类型和各场景类型分别对应的概率。
步骤A2:基于该栅格地图对应的各场景类型、以及各场景类型分别对应的概率,结合预设概率阈值,判断满足预设概率阈值的场景类型数量是否大于1,默认没有小于1的存在,若满足预设概率阈值的场景类型数量不大于1,则满足预设概率阈值对应的场景类型,作为该栅格地图对应的场景类型结果;若满足预设概率阈值的场景类型数量大于1,如图2所示,迭代执行步骤A2.1至步骤A2.3,获得该栅格地图对应的场景类型结果。
在本实施例中,针对原始栅格地图的预设概率阈值取0.75,如果对进行多标签分类的结果中,大于预设概率阈值的场景类型数量等于1,则大于预设概率阈值的场景类型作为该这个地图的类别,记为freqc=1,c∈[1,2,…,n],不大于预设概率阈值的场景类型,记为freqc=0;若大于预设概率阈值的场景类型数量大于1,则大于预设概率阈值的各场景类型记为freqc=1,c∈[1,2,...,n],不大于预设概率阈值的场景类型,记为freqc=0;并且迭代执行步骤A2.1至步骤A2.3。其中,c是场景类型的索引,共有n个场景类型。
步骤A2.1:将栅格地图基于预设网格划分,获得预设个数子栅格地图;基于预设栅格地图尺寸,判断网格划分后的各子栅格地图是否小于预设栅格地图尺寸,若网格划分后的各子栅格地图均小于预设栅格地图尺寸,则当前在各迭代中满足预设概率阈值对应的各场景类型,作为该栅格地图对应的场景类型结果;若网格划分后的各子栅格地图中存在不小于预设栅格地图尺寸的子栅格地图,则不小于预设栅格地图尺寸的子栅格地图执行步骤A2.2。
在本实施例中,对栅格地图进行基于预设网格划分,即对栅格地图进行四等分,获得四个子栅格地图,各子栅格地图的大小为x和y分别表示栅格地图的长和宽;预设栅格地图尺寸为64像素×64像素。各子栅格地图表示为/>k表示网格划分的层级,即网格划分的次数;s表示网格划分后地图子区域的序号,第k次网格划分获得的子栅格地图总数量为sk。
步骤A2.2:针对不小于预设栅格地图尺寸的子栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对子栅格地图进行多标签分类,获得子栅格地图分应的各场景类型、以及各场景类型分别对应的概率;执行A2.3。
在本实施例中,多标签分类是指对一幅地图场景中所包含的多个可能的类别进行标注,多标签分类结果采用“预测类别+预测概率”的形式,如图3所示。设结合预设各场景类型的样本空间为X={x1,x2,…,xn},其中,n等于结合预设各场景类型总数量。多标签分类的结果表示为Lk={l1,l2,…,lm},且m=n。其中,lk(j=1,2,…,m)表示每一个分类标签,且每一个分类标签的结果为0~1;0表示0%的概率为该类别,而1表示100%的概率为该类别。
步骤A2.3:基于子栅格地图对应的各场景类型和各场景类型分别对应的概率,结合预设概率阈值,判断各子栅格地图分别对应的满足预设概率阈值的场景类型数量是否大于1,若各子栅格地图分别对应的满足预设概率阈值的场景类型数量均不大于1,则当前在各迭代中满足预设概率阈值对应的各场景类型,作为该栅格地图对应的场景类型结果;若各子栅格地图中存在子栅格地图对应的满足预设概率阈值的场景类型数量大于1,则对应的满足预设概率阈值的场景类型数量大于1的子栅格地图返回执行步骤A2.1,将子栅格地图作为栅格地图进行预设网格划分,即将子栅格地图作为步骤A2.1中预设网格划分的对象。
在本实施例中,各迭代中的预设概率阈值取0.6;freqk,s,c表示第k次网格划分获得的子栅格地图s对应的场景类型结果中是否存在场景类型c,存在时freqk,s,c=1,不存在时freqk,s,c=0,其中,c是场景类型的索引,共有n个场景类型。
在本实施例中,地图对应的预设各场景类型具体如下所示:预设各场景类型的标注为包含五个级别的数据结构,包括如下:
第一层(地图维度):二维平面地图、三维立体地图
第二层(地图主题):地形地图、交通地图、城市地图、水系地图、区划地图、室内地图、夜光地图;
第三层:传统地图、数字地图、实景/影像地图、线划地图、漫画地图、数字高程模型;
第四层(表现形式):彩色绘图、单色绘图;
第五级别(地图视角):正射角度、斜射角度。
地图场景类型不限于上述各场景类型,地图场景类型可包括现有的开源基准数据集所涉及的所有场景类型或基于待处理栅格地图数据库需求设定各场景类型;所述分类模型采用预设深度卷积神经网络,如ResNet。
本实施例中,所述预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,具体通过以下步骤获得:
步骤1:建立泛源地图场景类型基准数据集,场景类型的标注为上述预设各场景类型。
步骤2:对步骤1所建立的标注后的数据集进行数据增强操作,建立扩展基准数据集。
在本实施例中,数据增强操作包括旋转、翻转、尺度变化、对比度改变、亮度调节以及云雾噪声增加。具体如下所述:
旋转操作对原始样本每旋转十度生成1张新图像,共生成36张新样本。
翻转操作对原始样本水平和垂直各自进行翻转,生成2张新样本。
尺度变化操作对原始样本及旋转操作和翻转操作后的图像基于四种尺度进行缩放:1:4、1:2、2:1和4:1,共生成156张新样本。
对比度更改操作对尺度变化操作后的样本用一种Adaptive Gamma CorrectionWith Weighting Distribution的方法进行增强处理,Gamma系数分别为:0.2、0.4、0.6和0.8。共生成624张新样本。
亮度调节操作对对比度更改操作生成的样本随机生成2张不同亮度的新样本,共生成1248张新样本。
云雾噪声增加操作对亮度调节操作生成的样本任意位置覆盖大小随机的云雾区域生成4张新样本,共生成4992张新样本。
本实施例中,基于步骤1所建立的基准数据集,对待处理栅格地图数据库内每一张地图执行如上表所示的数据增强后,均可新增生成4992张样本。
步骤3:基于步骤2生成的扩展基准数据集,对预设深度卷积神经网络进行训练和网络结构调式;获得以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型。
所采用的深度卷积神经网络还可采用公开的卷积神经网络模型,包括:ResNet、Inception-ResNet和DenseNet。
步骤B:基于该栅格地图对应的场景类型结果,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重;
所述步骤B中,基于该栅格地图对应的场景类型结果,具体执行以下步骤,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重:
步骤B1:针对该栅格地图对应的场景类型结果中的各场景类型,通过以下公式,计算各场景类型在该栅格地图中的频率;
式中,cfc表示场景类型c在该栅格地图中出现的频率,freqc表示该栅格地图对应的场景类型结果中是否存在场景类型c,存在时freqc=1,不存在时freqc=0;freqk,s,c表示第k次网格划分获得的子栅格地图s对应的场景类型结果中是否存在场景类型c,存在时freqk,s,c=1,不存在时freqk,s,c=0;sk表示第k次网格划分获得的子栅格地图总数量;b表示栅格地图进行网格划分获得的预设个数子栅格地图数量;
在本实施例中,基于对栅格地图进行进行四等分,各场景类型在该栅格地图中的频率公式如下所示:
步骤B2:基于各场景类型在该栅格地图中的频率,通过以下公式,计算各场景类型的的反频率;
式中,a=mo/mmin,mo表示该栅格地图尺寸、mmin表示最后一次网格划分的子栅格地图中尺寸最小的子栅格地图尺寸;imfc表示场景类型c在该栅格地图中出现的反频率;
kmax表示网格划分的总次数;
步骤B3:基于该栅格地图对应的场景类型结果中的各场景类型在该栅格地图中的频率、以及各场景类型的的反频率,通过以下公式,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重;
wc=cfc×imfc
式中,wc表示场景类型c在该栅格地图中的权重。
步骤C:基于该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,获得该栅格地图对应的场景表征。
所述步骤C中,基于该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,获得该栅格地图对应的场景表征W如下所示:
W=[w1,w2,…wc...,wn]
式中,wc表示场景类型c在该栅格地图中的权重;n表示预设各场景类型总数,对于该栅格地图对应的场景类型结果中不包含的各场景类型的权重取0。
针对该栅格地图对应的场景类型结果,基于文档词条矩阵,建立地图视觉场景—地图语义模型,即Term-document模型,将地图的多标签分类信息映射到文本语义的计算中,用于执行步骤B-C;文档词条矩阵包括词、文本、文本集,以及文本集的主题;如图4所示,地图视觉场景—地图语义模型中:将预设各场景类型对应词;该栅格地图划分的子栅格地图对应文档词条矩阵中的文本;该栅格地图对应文档词条矩阵中的文本集;该栅格地图对应的场景表征对应文档词条矩阵中的文本集主题。
基于待处理栅格地图数据库中的各栅格地图分别对应的场景表征,针对待处理栅格地图数据库中的目标栅格地图,采用改进的Cosine相似度进行分析,具体公式如下,获得目标栅格地图与待处理栅格地图数据库中栅格地图的场景相似度,进而实现两栅格地图场景相似识别:
式中,Ii表示对待处理栅格地图数据库中的目标栅格地图;Ij表示待处理栅格地图数据库中的任意一栅格地图;sim(Ii,Ij)表示栅格地图Ii和Ij的场景相似度,wi,c表示场景类型c在栅格地图Ii中的权重,wj,c表示场景类型c在栅格地图Ij中的权重;n表示预设各场景类型总数。
本实施例中,可基于目标栅格地图与待处理栅格地图数据库中栅格地图的场景相似度,从待处理栅格地图数据库中获得与目标栅格地图基于相似度关联要求的栅格地图。
基于上述方法,本方案还设计了一种视觉特征与向量语义空间耦合的地图场景识别方法的系统,包括多标签分类模块、场景类型结果识别模块、权重计算模块、场景表征模块,
分别针对待处理栅格地图数据库中的各栅格地图,结合预设各场景类型,多标签分类模型用于对栅格地图进行多标签分类,获得栅格地图对应的各场景类型、以及各场景类型分别对应的概率;
场景类型结果识别模块基于栅格地图对应的各场景类型、以及各场景类型分别对应的概率,用于获得栅格地图对应的场景类型结果;
权重计算模块基于栅格地图对应的场景类型结果,用于获得栅格地图对应的场景类型结果中各场景类型分别在栅格地图中的权重;
场景表征模块基于栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,用于获得栅格地图对应的场景表征。
一种视觉特征与向量语义空间耦合的地图场景识别方法的系统还包括地图相似度计算模块,基于待处理栅格地图数据库中的各栅格地图分别对应的场景表征,针对待处理栅格地图数据库中的目标栅格地图,地图相似度计算模块用于计算目标栅格地图与待处理栅格地图数据库中栅格地图的场景相似度。
另外,本方案还包括一种视觉特征与向量语义空间耦合的栅格地图场景识别终端,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机程序,所述处理器通过执行所述计算机程序,从而执行所述一种视觉特征与向量语义空间耦合的地图场景识别方法。
本发明设计了视觉特征与向量语义空间耦合的地图场景识别方法及系统,本发明将卷积神经网络所提取的多层次视觉特征和地图语义信息相结合,对现有的地图场景识别方法进行进一步的优化和改进,使之能够具备一定的逻辑推理和知识泛化能力,适应于复杂的地图场景识别。既可有效利用现有先进的深度卷积神经网络在视觉特征提取和特征识别的强大能力,又可利用地图语义分析的手段赋予模型逻辑推理的能力,并且进一步提升了场景相似度识别的精度。本发明可为地图内容识别、泛源地图检索、空间情感等等提供直接的参考和支持。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。
Claims (10)
1.一种视觉特征与向量语义空间耦合的地图场景识别方法,其特征在于:分别针对待处理栅格地图数据库中的各栅格地图,执行以下步骤,对栅格地图进行场景识别,获得各栅格地图分别对应的场景表征:
步骤A:针对栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对该栅格地图进行多标签分类,获得该栅格地图对应的各场景类型、以及各场景类型分别对应的概率;进而获得该栅格地图对应的场景类型结果;
步骤B:基于该栅格地图对应的场景类型结果,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重;
步骤C:基于该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,获得该栅格地图对应的场景表征。
2.根据权利要求1所述一种视觉特征与向量语义空间耦合的地图场景识别方法,其特征在于:所述步骤A中,具体执行以下步骤,获得该栅格地图对应的场景类型结果:
步骤A1:针对待处理栅格地图数据库中的栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对该栅格地图进行多标签分类,获得该栅格地图对应的各场景类型和各场景类型分别对应的概率;
步骤A2:基于该栅格地图对应的各场景类型、以及各场景类型分别对应的概率,结合预设概率阈值,判断满足预设概率阈值的场景类型数量是否大于1,若满足预设概率阈值的场景类型数量不大于1,则满足预设概率阈值对应的场景类型,作为该栅格地图对应的场景类型结果;若满足预设概率阈值的场景类型数量大于1,迭代执行以下步骤,获得该栅格地图对应的场景类型结果:
步骤A2.1:将栅格地图基于预设网格划分,获得预设个数子栅格地图;基于预设栅格地图尺寸,判断网格划分后的各子栅格地图是否小于预设栅格地图尺寸,若网格划分后的各子栅格地图均小于预设栅格地图尺寸,则当前在各迭代中满足预设概率阈值对应的各场景类型,作为该栅格地图对应的场景类型结果;若网格划分后的各子栅格地图中存在不小于预设栅格地图尺寸的子栅格地图,则不小于预设栅格地图尺寸的子栅格地图执行步骤A2.2;
步骤A2.2:针对不小于预设栅格地图尺寸的子栅格地图,结合预设各场景类型,利用预训练的以栅格地图为输入、以栅格地图对应的各场景类型及各场景类型分别对应的概率为输出的分类模型,对子栅格地图进行多标签分类,获得子栅格地图分应的各场景类型、以及各场景类型分别对应的概率;执行A2.3;
步骤A2.3:基于子栅格地图对应的各场景类型和各场景类型分别对应的概率,结合预设概率阈值,判断各子栅格地图分别对应的满足预设概率阈值的场景类型数量是否大于1,若各子栅格地图分别对应的满足预设概率阈值的场景类型数量均不大于1,则当前在各迭代中满足预设概率阈值对应的各场景类型,作为该栅格地图对应的场景类型结果;若各子栅格地图中存在子栅格地图对应的满足预设概率阈值的场景类型数量大于1,则对应的满足预设概率阈值的场景类型数量大于1的子栅格地图返回执行步骤A2.1,将子栅格地图作为栅格地图进行预设网格划分。
3.根据权利要求2所述一种视觉特征与向量语义空间耦合的地图场景识别方法,其特征在于:所述步骤B中,基于该栅格地图对应的场景类型结果,具体执行以下步骤,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重:
步骤B1:针对该栅格地图对应的场景类型结果中的各场景类型,通过以下公式,计算各场景类型在该栅格地图中的频率;
式中,cfc表示场景类型c在该栅格地图中出现的频率,freqc表示该栅格地图对应的场景类型结果中是否存在场景类型c,存在时freqc=1,不存在时freqc=0;freqk,s,c表示第k次网格划分获得的子栅格地图s对应的场景类型结果中是否存在场景类型c,存在时freqk,s,c=1,不存在时freqk,s,c=0;sk表示第k次网格划分获得的子栅格地图总数量;b表示栅格地图进行网格划分获得的预设个数子栅格地图数量;
步骤B2:基于各场景类型在该栅格地图中的频率,通过以下公式,计算各场景类型的的反频率;
式中,a=mo/mmin,mo表示该栅格地图尺寸、mmin表示最后一次网格划分的子栅格地图中尺寸最小的子栅格地图尺寸;imfc表示场景类型c在该栅格地图中出现的反频率;kmax表示网格划分的总次数;
步骤B3:基于该栅格地图对应的场景类型结果中的各场景类型在该栅格地图中的频率、以及各场景类型的的反频率,通过以下公式,获得该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重;
wc=cfc×imfc
式中,wc表示场景类型c在该栅格地图中的权重。
4.根据权利要求1所述一种视觉特征与向量语义空间耦合的地图场景识别方法,其特征在于:所述步骤C中,基于该栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,获得该栅格地图对应的场景表征W如下所示:
W=[w1,w2,...wc...,wn]
式中,wc表示场景类型c在该栅格地图中的权重;n表示预设各场景类型总数,对于该栅格地图对应的场景类型结果中不包含的各场景类型的权重取0。
6.根据权利要求2所述一种视觉特征与向量语义空间耦合的地图场景识别方法,其特征在于:针对该栅格地图对应的场景类型结果,基于文档词条矩阵,建立地图视觉场景—地图语义模型,用于执行步骤B-C;
地图视觉场景—地图语义模型中:将预设各场景类型对应词;该栅格地图划分的子栅格地图对应文档词条矩阵中的文本;该栅格地图对应文档词条矩阵中的文本集;该栅格地图对应的场景表征对应文档词条矩阵中的文本集主题。
7.根据权利要求1所述一种视觉特征与向量语义空间耦合的地图场景识别方法,其特征在于:所述分类模型采用预设深度卷积神经网络。
8.一种基于权利要求1-7任意一项所述一种视觉特征与向量语义空间耦合的地图场景识别方法的系统,其特征在于:包括多标签分类模块、场景类型结果识别模块、权重计算模块、场景表征模块,
分别针对待处理栅格地图数据库中的各栅格地图,结合预设各场景类型,多标签分类模型用于对栅格地图进行多标签分类,获得栅格地图对应的各场景类型、以及各场景类型分别对应的概率;
场景类型结果识别模块基于栅格地图对应的各场景类型、以及各场景类型分别对应的概率,用于获得栅格地图对应的场景类型结果;
权重计算模块基于栅格地图对应的场景类型结果,用于获得栅格地图对应的场景类型结果中各场景类型分别在栅格地图中的权重;
场景表征模块基于栅格地图对应的场景类型结果中各场景类型分别在该栅格地图中的权重,结合预设各场景类型,用于获得栅格地图对应的场景表征。
9.根据权利要求8所述一种视觉特征与向量语义空间耦合的地图场景识别方法的系统,其特征在于:还包括地图相似度计算模块,基于待处理栅格地图数据库中的各栅格地图分别对应的场景表征,针对待处理栅格地图数据库中的目标栅格地图,地图相似度计算模块用于计算目标栅格地图与待处理栅格地图数据库中栅格地图的场景相似度。
10.一种视觉特征与向量语义空间耦合的栅格地图场景识别终端,其特征在于:包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机程序,所述处理器通过执行所述计算机程序,从而执行权利要求1-7任一项所述一种视觉特征与向量语义空间耦合的地图场景识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310054450.8A CN116343104B (zh) | 2023-02-03 | 2023-02-03 | 视觉特征与向量语义空间耦合的地图场景识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310054450.8A CN116343104B (zh) | 2023-02-03 | 2023-02-03 | 视觉特征与向量语义空间耦合的地图场景识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343104A true CN116343104A (zh) | 2023-06-27 |
CN116343104B CN116343104B (zh) | 2023-09-15 |
Family
ID=86881163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310054450.8A Active CN116343104B (zh) | 2023-02-03 | 2023-02-03 | 视觉特征与向量语义空间耦合的地图场景识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343104B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3032454A1 (en) * | 2014-12-10 | 2016-06-15 | Honda Research Institute Europe GmbH | Method and system for adaptive ray based scene analysis of semantic traffic spaces and vehicle equipped with such system |
CN106547880A (zh) * | 2016-10-26 | 2017-03-29 | 重庆邮电大学 | 一种融合地理区域知识的多维度地理场景识别方法 |
CN109840452A (zh) * | 2017-11-28 | 2019-06-04 | 中国移动通信集团浙江有限公司 | 一种栅格覆盖场景自动识别方法及装置 |
CN110455306A (zh) * | 2018-05-07 | 2019-11-15 | 南京图易科技有限责任公司 | 一种基于深度学习的机器人场景识别与语义导航地图标注方法 |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
CN112802204A (zh) * | 2021-01-26 | 2021-05-14 | 山东大学 | 未知环境下三维空间场景先验的目标语义导航方法及系统 |
-
2023
- 2023-02-03 CN CN202310054450.8A patent/CN116343104B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3032454A1 (en) * | 2014-12-10 | 2016-06-15 | Honda Research Institute Europe GmbH | Method and system for adaptive ray based scene analysis of semantic traffic spaces and vehicle equipped with such system |
CN106547880A (zh) * | 2016-10-26 | 2017-03-29 | 重庆邮电大学 | 一种融合地理区域知识的多维度地理场景识别方法 |
CN109840452A (zh) * | 2017-11-28 | 2019-06-04 | 中国移动通信集团浙江有限公司 | 一种栅格覆盖场景自动识别方法及装置 |
CN110455306A (zh) * | 2018-05-07 | 2019-11-15 | 南京图易科技有限责任公司 | 一种基于深度学习的机器人场景识别与语义导航地图标注方法 |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
CN112802204A (zh) * | 2021-01-26 | 2021-05-14 | 山东大学 | 未知环境下三维空间场景先验的目标语义导航方法及系统 |
Non-Patent Citations (2)
Title |
---|
杨鹏;蔡青青;孙昊;孙丽红;: "基于卷积神经网络的室内场景识别", 郑州大学学报(理学版), no. 03 * |
秦玉鑫;张高峰;王裕清;: "针对复杂环境的模块化栅格地图构建算法", 控制工程, no. 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN116343104B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909820B (zh) | 基于自监督学习的图像分类方法及系统 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN114067107B (zh) | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 | |
Gong et al. | Differential evolutionary superpixel segmentation | |
CN109711448A (zh) | 基于判别关键域和深度学习的植物图像细粒度分类方法 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
WO2020077940A1 (en) | Method and device for automatic identification of labels of image | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
Cai et al. | Improving sampling-based image matting with cooperative coevolution differential evolution algorithm | |
Zhou et al. | Sampling-attention deep learning network with transfer learning for large-scale urban point cloud semantic segmentation | |
CN114676777A (zh) | 一种基于孪生网络的自监督学习细粒度图像分类方法 | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
Zhong et al. | Automatic aurora image classification framework based on deep learning for occurrence distribution analysis: A case study of all‐sky image data sets from the Yellow River Station | |
Wang et al. | Context-sensitive zero-shot semantic segmentation model based on meta-learning | |
Chen et al. | Dual-bottleneck feature pyramid network for multiscale object detection | |
CN111881997B (zh) | 一种基于显著性的多模态小样本学习方法 | |
CN116343104B (zh) | 视觉特征与向量语义空间耦合的地图场景识别方法及系统 | |
CN116977633A (zh) | 地物要素分割模型训练方法、地物要素分割方法及装置 | |
Garozzo et al. | Knowledge-based generative adversarial networks for scene understanding in Cultural Heritage | |
CN115359468A (zh) | 一种目标网站识别方法、装置、设备及介质 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
Yu et al. | Bag of Tricks and a Strong Baseline for FGVC. | |
CN113436115A (zh) | 一种基于深度无监督学习的图像阴影检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |