CN117372510B - 基于计算机视觉模型的地图注记识别方法、终端及介质 - Google Patents

基于计算机视觉模型的地图注记识别方法、终端及介质 Download PDF

Info

Publication number
CN117372510B
CN117372510B CN202311648914.4A CN202311648914A CN117372510B CN 117372510 B CN117372510 B CN 117372510B CN 202311648914 A CN202311648914 A CN 202311648914A CN 117372510 B CN117372510 B CN 117372510B
Authority
CN
China
Prior art keywords
map
data
picture
identified
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311648914.4A
Other languages
English (en)
Other versions
CN117372510A (zh
Inventor
胡德
吕迎雪
丁广佳
孙运佳
韩涛
李琛
刘文贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCCC First Harbor Engineering Co Ltd
Tianjin Port Engineering Institute Ltd of CCCC Frst Harbor Engineering Co Ltd
Tianjin Harbor Engineering Quality Inspection Center Co Ltd
Original Assignee
CCCC First Harbor Engineering Co Ltd
Tianjin Port Engineering Institute Ltd of CCCC Frst Harbor Engineering Co Ltd
Tianjin Harbor Engineering Quality Inspection Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCCC First Harbor Engineering Co Ltd, Tianjin Port Engineering Institute Ltd of CCCC Frst Harbor Engineering Co Ltd, Tianjin Harbor Engineering Quality Inspection Center Co Ltd filed Critical CCCC First Harbor Engineering Co Ltd
Priority to CN202311648914.4A priority Critical patent/CN117372510B/zh
Publication of CN117372510A publication Critical patent/CN117372510A/zh
Application granted granted Critical
Publication of CN117372510B publication Critical patent/CN117372510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于计算机视觉模型的地图注记识别方法、终端及介质,其中方法包括:获取地图样本数据,以得到训练完成的小目标检测模型;利用所述训练完成的小目标检测模型对待识别图片进行识别,得到数据的实例及位置信息;根据所述数据的实例及位置信息,基于浮点型、整型数据框对数据进行拼接,得到一次识别结果;基于密度聚类算法对数据进行拼接,得到二次识别结果,二者取交集以得到最终识别结果,并提供了双线性插值、最小二乘法,对最终识别结果进行地理配准。本发明所述的基于计算机视觉模型的地图注记识别方法、终端及介质,采用计算机视觉模型对地图进行识别,识别准确性高,为水利行业和gis行业对地图数据提取提供新的方法。

Description

基于计算机视觉模型的地图注记识别方法、终端及介质
技术领域
本发明属于海洋水动力模型前处理技术领域,尤其是涉及一种基于计算机视觉模型的地图注记识别方法、终端及介质。
背景技术
海洋水动力模型中,需要提供地形数据为模型的搭建提供支撑,主要依靠实地测量或借鉴一些发行版地图(特别是高精度数据)。而地图文本蕴含着大量的信息,且这些信息具有空间位置关系,市面上的文本识别工具不能胜任这样的工作。地图中高程信息的获取,现如今主要通过人工进行录入,不仅耗时而且存在一定的误差(取点位置的随机,人脑的疲劳等造成的误差),导致海洋水动力模型计算不准确。
现有申请号为202210419351.0的中国发明专利提供了一种图像中对象位置关系的识别方法、装置及存储介质。该识别方法通过是获取包含多个待识别对象的RGB图和深度图;深度图包含有与该RGB图中的每个像素点对应的深度信息;对RGB图进行检测和特征提取,可以得到包含多个目标图像对应的视觉特征和语义特征;通过对深度图中的每个像素点的深度进行聚类等处理,确定每个目标图像的目标对象的中心深度,以确定任意两个目标对象的深度差值,最后将上述每个目标图像对应的视觉特征、语义特征和任意两个目标对象的深度差值输入到训练好的位置关系分类模型,即可输出任意两个目标对象的位置结果。
虽然上述发明技术方案中已经存在对图像中文字进行识别的相关方案,但现有技术方案缺乏对识别信息的验证,存在部分注记识别不准确的问题,而在利用发行版地图构建海洋水动力模型时,尤其需要准确识别图片上像素的位置。同时,由于发行版地图可能存在图片的褶皱、扭曲等情况,导致现有图像识别在应用于水力地图识别时,也存在识别准确性不佳的问题,影响了海洋水动力模型的搭建效果和搭建精度。
发明内容
有鉴于此,本发明旨在提出一种基于计算机视觉模型的地图注记识别方法、终端及介质,以解决现有识别方法对地图上的注记识别不准确,影响了海洋水动力模型的搭建效果和搭建精度的问题。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面
本发明提供了一种基于计算机视觉模型的地图注记识别方法,包括:
获取地图样本数据,并利用所述地图样本数据制作训练集和测试集;
利用所述训练集对小目标检测模型进行训练,并利用所述测试集对训练后的小目标检测模型进行测试,得到训练完成的小目标检测模型;
获取待识别地图图片,并对所述待识别地图图片进行不均匀分割裁剪,得到待识别图片;
利用所述训练完成的小目标检测模型对所述待识别图片进行识别,得到数据的实例及位置信息;
根据所述数据的实例及位置信息,基于浮点型、整型数据框对数据进行拼接,得到一次识别结果;
根据所述数据的实例及位置信息,基于密度聚类算法对数据进行拼接,得到二次识别结果;
对所述一次识别结果和二次识别结果取交集,得到最终识别结果;
获取所述待识别地图图片的变形情况,并根据所述待识别地图图片的变形情况,对所述最终识别结果进行地理配准,得到地图注记数据。
进一步的,所述获取地图样本数据,并利用所述地图样本数据制作训练集和测试集,包括:
获取地图样本数据,并对所述地图样本数据进行预处理,得到样本图片;
使用标注工具,对所述样本图片中的数字0-9、浮点型数据框、以及整型数据框进行打标签,得到标注数据信息,并将所述标注数据信息转化为小目标检测模型所使用的格式,以得到地图样本集;
将所述地图样本集按比例分为训练集和测试集。
进一步的,所述利用所述训练集对小目标检测模型进行训练,并利用所述测试集对训练后的小目标检测模型进行测试,得到训练完成的小目标检测模型,包括:
采用Yolo检测模型作为小目标检测模型;
将所述训练集输入Yolo检测模型,并将Yolo检测模型的batch参数设置为10,得到训练后的Yolo检测模型;
将所述测试集输入所述训练后的Yolo检测模型进行测试,以得到训练完成的Yolo检测模型。
进一步的,所述获取待识别地图图片,并对所述待识别地图图片进行不均匀分割裁剪,得到待识别图片,包括:
获取待识别地图图片;
设置裁剪阈值为目标注记大小的2.5-3.5倍,并分别在横向和竖向上,对图片进行不均匀分割裁剪,得到待识别图片;
其中,在横向上每个图片的宽度为:
式中为预设的图片宽度,/>为注记的宽度,/>为横向第/>个图片;
而在竖向上每个图片的高度为:
式中为预设的图片高度,/>为注记的宽度,/>为纵向第/>个图片。
进一步的,所述根据所述数据的实例及位置信息,基于浮点型、整型数据框对数据进行拼接,得到一次识别结果,包括:
将所述数据的实例分为数据框和数字;
根据所述数据的位置信息,遍历各数据框和数字,将位于同一数据框的数字放在一个数组中;
根据数组内各个数字的横坐标大小从左到右排列,并将最后一位数字作为小数位,得到一次识别结果。
进一步的,所述根据所述数据的实例及位置信息,基于密度聚类算法对数据进行拼接,得到二次识别结果,包括:
获取所述待识别地图图片的像素、以及所述待识别地图图片中的最小注记距离;
提取所述数据的实例中的数字;
将数字对应数据框的中心点作为位置点,设置样本间的最大距离等于所述待识别地图图片中最小注记距离,并通过对小目标检测模型推理后的数字位置信息进行DBSCAN密度聚类,得到核心点、密度可达点、以及游离点;
根据所述核心点、密度可达点、以及游离点,将所述核心点、密度可达点、以及游离点对应的数字从左到右进行拼接,并检测各数字的数据框高度,将数据框高度低于所述待识别地图图片像素大小的数字作为小数位。
进一步的,所述获取所述待识别地图图片的变形情况,并根据所述待识别地图图片的变形情况,对所述最终识别结果进行地理配准,得到地图注记数据,包括:
获取所述待识别地图图片的变形情况;
当所述待识别地图图片存在不平整的问题时,在经度和纬度两个方向分别进行双线性插值对所述最终识别结果进行地理配准,得到地图注记数据;
当所述待识别地图图片存在扭曲变形的问题时,利用最小二乘法对所述最终识别结果进行地理配准,得到地图注记数据。
进一步的,所述当所述待识别地图图片存在扭曲变形的问题时,利用最小二乘法对所述最终识别结果进行地理配准,得到地图注记数据,包括:
从所述待识别地图图片中选取个点/>,然后拟合这些点在/>方向和方向上的变化函数;
利用所有样本的残差公式,选取残差最小的方案,残差公式如下:
式中为第个/>点的横坐标,/>为第/>个点的纵坐标,/>为点的总数量,/>为地图偏转角度,/>为拟合函数。
第二方面
本发明还提供了一种终端,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于计算机视觉模型的地图注记识别方法。
第三方面
本发明还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述基于计算机视觉模型的地图注记识别方法。
相对于现有技术,本发明所述的基于计算机视觉模型的地图注记识别方法、终端及介质具有以下优势:
本发明所述的基于计算机视觉模型的地图注记识别方法、终端及介质,采用计算机视觉模型对地图进行识别,提取地图中的高程信息,为水利行业和gis行业对地图数据提取提供新的方法。利用这种地图注记识别方法对于gis数据地图进行描绘,只需要将扫描的图片作为输入源,并给出地图上一些点真实的地理位置,即可实现对地图中注记的自动识别、拼接数字及地理配准,识别效果好,且准确率高,生成的点数据能够满足海洋水动力模型对数据的要求,自动化程度高,不需要大量的人工工作,降了人员的劳动强度。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一所述的基于计算机视觉模型的地图注记识别方法流程图;
图2为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中小目标检测模型训练过程示意图
图3为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中待识别地图图片裁剪后的结构示意图;
图4为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中注记的一次识别流程示意图;
图5为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中二次识别流程示意图;
图6为本发明实施例二所述基于计算机视觉模型的地图注记识别终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所述基于计算机视觉模型的地图注记识别方法流程图。参见图1,这种方法具体包括如下步骤:
步骤101、获取地图样本数据,并利用所述地图样本数据制作训练集和测试集。
具体的,步骤101可参照如下步骤进行:
首先,获取地图样本数据,并对所述地图样本数据进行预处理,得到样本图片。示例性的,可通过python中cv2图像处理包,将map裁剪成300x300大小的图片,选取90张具有代表性的图片。之后,还可以使用画图工具制作10张1000x1000大小的图片,拼接地图上较少出现的信息。
其次,使用标注工具,对所述样本图片中的数字0-9、浮点型数据框、以及整型数据框进行打标签,得到标注数据信息,并将所述标注数据信息转化为小目标检测模型所使用的格式,以得到地图样本集。示例性的,其中,标签依次为0,1,2,3,4,5,6,7,8,9,f,i(本实施例假设地图精度只有1位小数,如果有多位小数的可使用f1、f2、f3等进行打标签)。并使用python将json标注数据信息转化为Yolo检测模型所使用的txt格式。
最后,将所述地图样本集按比例分为训练集和测试集。示例性的,训练集和样本集可采用8:2的比例进行划分,本领域技术人员也可以根据实际需要选择其他合适的比例,利用训练集和测试集对小目标检测模型进行训练,以得到训练完成的Yolo检测模型,属于本领域技术人员的常用技术手段,因此在这里不再赘述。
步骤102、利用所述训练集对小目标检测模型进行训练,并利用所述测试集对训练后的小目标检测模型进行测试,得到训练完成的小目标检测模型。
图2为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中小目标检测模型训练过程示意图。参见图2,具体的,步骤102可参照如下步骤进行:
首先,采用Yolo检测模型作为小目标检测模型。示例性的,小目标检测模型可采用Yolov8模型,与其他模型相比,Yolov8模型在性能和灵活性方面都有所提升,它包含n、s、m、l、x模型,以适应不同的应用场景和需求。
其次,将所述训练集输入Yolo检测模型,并将Yolo检测模型的batch参数设置为10,得到训练后的Yolo检测模型。Yolov8采用FPN+PAN结构来构建YOLO的特征金字塔,使多尺度信息之间进行充分的融合,该模型采用了解耦头的结构,两条并行的分支分别取提取类别特征和位置特征,然后各用一层1×1卷积完成分类和定位任务。在实际应用过程中,可根据需要选用Yolov8m.pt中等模型,其大约有3000多万个参数,适用于本实施例中小目标检测模型的训练。batch参数指的是每次训练时使用的样本数量,它对收敛速度和稳定性以及模型的泛化能力有一定的影响,同时对计算机能力有要求,本实施例中将batch参数设置为10,可以满足训练要求。
最后,将所述测试集输入所述训练后的Yolo检测模型进行测试,以得到训练完成的Yolo检测模型。实际训练过程中,可利用测试集对所述训练后的Yolo检测模型进行测试,根据测试结果,计算评估指标,如准确率、召回率和F1分数等。其中F1分数是准确率和召回率的调和平均值,可以综合考虑两者的性能,而F1分数的取值范围在0到1之间,越接近1表示模型性能越好。
步骤103、获取待识别地图图片,并对所述待识别地图图片进行不均匀分割裁剪,得到待识别图片。
具体的,步骤103可参照如下步骤进行:
首先,获取待识别地图图片。实际应用过程中,需要将模型转化为ONNX格式进行部署,并指定好模型的输入和输出。同时,还需要结合python中的json、shapely、pyshp、onnx、scipy、cv2等库进行编程运用。但一般由于网络模型的大小限制,直接识别大尺寸的图片效果低,需要裁剪待识别地图图片,即map,以适应网络模型的限制。
其次,设置裁剪阈值为目标注记大小的2.5-3.5倍,并分别在横向和竖向上,对图片进行不均匀分割裁剪,得到待识别图片;
其中,在横向上每个图片的宽度为:
式中为预设的图片宽度,/>为注记的宽度,/>为横向第/>个图片;
而在竖向上每个图片的高度为:
式中为预设的图片高度,/>为注记的宽度,/>为纵向第/>个图片。
示例性的,为解决数字跨越裁剪边界的问题,在裁剪时设置裁剪阈值位目标注记大小的3倍效果较好,可以保证所有的数字具有完整性。本领域技术人员也可以根据实际需要将裁剪阈值设置为目标注记大小的2.5-3.5倍中的任意数值,以确保数字的完整性,在这里不再赘述。
图3为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中待识别地图图片裁剪后的结构示意图。参见图3,如果按照正常分割图片,跨越分割线的实例,需要对其进行重组,而且数字分开需要重新对其数字类型进行判断。而本实施例通过对图片进行不均匀分割,保证了识别分割线处注记实例的完整性。
如图3所示,当对①号图片进行识别时,设置识别分割线(最右侧虚线),识别时只识别最右侧虚线的左半部分,②号图片识别右半部分。当对②号图片进行识别时同理,设置识别分割线(最左侧虚线),识别时只识别最左侧虚线的右半部分,则①号图片和②号图片的叠加区域,在识别时地图注记一定是完整的。
步骤104、利用所述训练完成的小目标检测模型对所述待识别图片进行识别,得到数据的实例及位置信息。
通过训练好的小目标检测模型,可对待识别图片进行预测会返回数据的类型及边框信息,即数据的实例及位置信息。之后可根据文字书写的习惯从左到右,通过返回的数字实例及数据类型实例,还原原图的数字。同时,由于Yolov8模型具有很强的泛化性,浮点型框有些是不太准,但由于本实施例所述方法服务于海洋水动力模拟,识别结果错误对模型的影响不可估量。因此后续步骤中还需要引入DBSCAN密度聚类的方法,对浮点型数据再次识别,通过两种方法对比,取交集进行验证,可以提高识别的准确性。
步骤105、根据所述数据的实例及位置信息,基于浮点型、整型数据框对数据进行拼接,得到一次识别结果。
具体的,步骤105可参照如下步骤进行:
首先,将所述数据的实例分为数据框和数字。
其次,根据所述数据的位置信息,遍历各数据框和数字,将位于同一数据框的数字放在一个数组中。
最后,根据数组内各个数字的横坐标大小从左到右排列,并将最后一位数字作为小数位,得到一次识别结果。
在实际应用过程中,由于Yolo检测模型识别返回的只是实例和位置信息,以数字5.9为例,Yolo检测模型返回的是(5,9,浮点型框 f)这三个实例及位置信息,结果是json格式。假如共有四个浮点型框(可以理解为容器),就需要往这个四个容器里面放入对应的数字实例(通过位置匹配)。因此,需要做以下几件事:
1、将数字实例和类型实例(容器)分开。
2、遍历数字实例,再遍历容器实例(通过位置关系,将数字放入到容器中)。
3、此时容器里面的数字可能是5、9,也有可能是9、5,这时需要看5、9这个两个数字谁的横坐标小(在左边),通过从左到右的方法进行匹配。由于本实施例中假设小数部分只有1位(所以使用的f标签表示,如果有两位,可用f2表示等),通过空间位置排序后,可确定这个数字为5.9。
在实际应用过程中,以注记为29.9时为例,图4为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中注记的一次识别流程示意图。参见图4,具体拼接流程如下:
首先,通过Yolo检测模型推理出标注实例:f,9,9,2。其中,f为浮点型数据框。
其次,将实例分为数据框和数字:f、以及9、9、2。
再次,遍历数据框和各实的位置关系,将位于同一个数据框的内容放在一个数组中:9,9,2。
最后,根据数组内各个实例的横坐标大小,从左到右排列并将最后一位作为小数,得到29.9。
步骤106、根据所述数据的实例及位置信息,基于密度聚类算法对数据进行拼接,得到二次识别结果。
具体的,步骤106可以参照如下步骤进行:
首先,获取所述待识别地图图片的像素、以及所述待识别地图图片中的最小注记距离。
其次,提取所述数据的实例中的数字。
再次,将数字对应数据框的中心点作为位置点,设置样本间的最大距离等于所述待识别地图图片中最小注记距离,并通过对小目标检测模型推理后的数字位置信息进行DBSCAN密度聚类,得到核心点、密度可达点、以及游离点。
最后,根据所述核心点、密度可达点、以及游离点,将所述核心点、密度可达点、以及游离点对应的数字从左到右进行拼接,并检测各数字的数据框高度,将数据框高度低于所述待识别地图图片像素大小的数字作为小数位。
DBSCAN密度聚类中,所有数据点被分为三类,包括核心点(core points)、密度可达点(reachable points)以及游离点(outliers)。核心点的定义是在eps范围内,该数据点包含不少于特定数量(minPts)的邻居点。同时,存在于该eps的半径范围内的所有数据点称为该核心点的直接密度可达点;核心点的密度可达点被定义为数据点通过至少一条由直接密度可达点组成的路径连接到该核心点的所有数据点,故核心点的所有直接密度可达点均为其密度可达点;以eps的半径范围为中心的,位于任意核心点之外的数据点称为游离点。
示例性的,假设地图的像素为30个像素,而地图的最小注记距离。在实际应用过程中,通过对地图中一个浮点型内数字中点的距离计算,则可设置eps=130,Yolo模型推理后的数字位置进行密度聚类。核心点位浮点型数据的位置点,密度可达点为浮点型数据数字组成数的位置。同时,由于在图像中小数部分文字高度要比整部分的文字高度小,因此可根据sklearn中提供的DBSCAN密度聚类数据算法和Yolo模型推理的数字框高度,从左到右对数字进行拼接。
由于浮点型数据,Yolo检测模型可能标注不准确,因此可采用密度聚类的方法再次拼接。如上述步骤105中5.9这个数,5和9的距离很近,其他小数也一样。所以获取这些数字实例后,可通过空间密度聚类的方法,将浮点型数字匹配在一个容器(浮点型数字)内,这时可通数字的位置关系从左到右进行匹配,会有59这样的结果。由于上述步骤105中小数部位的数字,形状上偏小,返回的结果中,小数的框高度低于正常数字的框。通过这种对比识别小数,可以确定为5.9。
在实际应用过程中,以注记为29.9、6、以及62时为例,图5为本发明实施例一所述基于计算机视觉模型的地图注记识别方法中二次识别流程示意图。参见图5,具体拼接流程如下:
首先,通过Yolo检测模型推理出标注实例:f,9,9,2,6,i,6,i,2。
其次,DBSCAN密度聚类不使用数据框标注区分,提取出纯数字实例:9,9,2,6,6,2。其中,将各实例框的中心点作为位置点,设置样本间的最大距离为130,经sklearn的DBSCAN密度聚类得到核心点、密度可达点、以及游离点。核心点和密度可达点为浮点型数或整数的组成部分游离点为单整数。图中聚类为两类和一个游离点。
再次,遍历其类别,将数字分类:992,62,6。
最后,遍历各类数,并检测其数字框高度,低于30(非小数的高度)的作为小数位,得到29.6、62及6。
步骤107、对所述一次识别结果和二次识别结果取交集,得到最终识别结果。具体的,通过取上述步骤105和上述106所述两种方法的交集,DBSCAN密度聚类形成了Yolo检测模型对浮点型数据识别结果(即一次识别结果)的验证。其中,取交集,即获取一次识别结果和二次识别结果中相同的数据,通过采用两种方法对数字拼接,得到两种结果进行对比,可以剔除不一样的数据,保证了识别注记的精确性。
步骤108、获取所述待识别地图图片的变形情况,并根据所述待识别地图图片的变形情况,对所述最终识别结果进行地理配准,得到地图注记数据。
具体的,步骤108可参照如下步骤进行:
首先,获取所述待识别地图图片的变形情况。示例性的,操作人员可以在进行地图识别前,先检查待识别地图图片的变形情况,并继进行判断即可。
其中,当所述待识别地图图片存在不平整的问题时,在经度和纬度两个方向分别进行双线性插值对所述最终识别结果进行地理配准,得到地图注记数据。而当所述待识别地图图片存在扭曲变形的问题时,利用最小二乘法对所述最终识别结果进行地理配准,得到地图注记数据。
在实际应用过程中,由于图片上的位置,可能不太准确(地图的褶皱,扭曲等,都会影响其真实的地理位置),这时可通过获取大量地图中的特征点,通过双线性插值法计算真实的地理坐标,也可以通过多项式拟合,并通过最小二乘法选取残差最小的方案。
如果扫描时地图的不平整性及扫描技术,导致图片中地图存在误差,需要对地图进行地理配准。配准的方法采用双线性插值的方法。通过python代码实现,在经纬度两个方向分别进行双线性插值计算,双线性插值计算方法属于本领域技术人员的公知常识,因此在这里不再赘述。
对于图片扭曲较为严重的情况,双线性插值就不太适用,而最小二乘法常用于拟合仿射或多项式变换模型。因此,可以先从所述待识别地图图片中选取个点/>,然后可选用二次多项式等拟合这些点/>方向和/>方向上的变化函数。最后利用所有样本的残差公式,选取残差最小的方案,残差公式如下:
式中为第个/>点的横坐标,/>为第/>个点的纵坐标,/>为点的总数量,/>为地图偏转角度,/>为拟合函数,S为总的残差。
在实际使用过程中,本领域技术人员也可将小目标检测模型转化为ONNX格式进行部署,指定好小目标检测模型的输入和输出,以及小目标检测模型的参数等。通过pythononnx库进行使用,完后输入待识别的图片和给定配准的坐标即可,小目标检测模型使用pyshp库,将识别好的点转换为ersi格式的矢量点数据。
本实施例所述的基于计算机视觉模型的地图注记识别方法,对于gis数据地图的描绘,只需要将扫描的图片作为输入源,并给出地图上一些点真实的地理位置,即可自动进行识别、拼接数字和地理配准,整个流程能够识别大量的数据点,且识别准确率高。同时,利用这种识别方法生成的点数据能够满足海洋水动力模型对数据的要求,自动化程度高,不需要大量的人工工作。
实施例二
图6为本发明实施例二所述基于计算机视觉模型的地图注记识别终端的结构示意图。图6示出了适于用来实现本发明实施方式的示例性终端系统的框图。图6显示的终端系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,终端12以通用计算设备的形式表现。终端12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
终端12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。终端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
终端12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该终端12交互的设备通信,和/或与使得该终端12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与终端12的其它模块通信。应当明白,尽管图中未示出,可以结合终端12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于计算机视觉模型的地图注记识别方法。
实施例三
本发明实施三还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的任一所述的基于计算机视觉模型的地图注记识别方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.基于计算机视觉模型的地图注记识别方法,其特征在于,包括:
获取地图样本数据,并利用所述地图样本数据制作训练集和测试集;
利用所述训练集对小目标检测模型进行训练,并利用所述测试集对训练后的小目标检测模型进行测试,得到训练完成的小目标检测模型;
获取待识别地图图片,并对所述待识别地图图片进行不均匀分割裁剪,得到待识别图片;
利用所述训练完成的小目标检测模型对所述待识别图片进行识别,得到数据的实例及位置信息;其中,实例包括数字和数据框;
根据所述数据的实例及位置信息,基于浮点型、整型数据框对数据进行拼接,得到一次识别结果;
根据所述数据的实例及位置信息,基于密度聚类算法对数据进行拼接,得到二次识别结果;
对所述一次识别结果和二次识别结果取交集,得到最终识别结果;
获取所述待识别地图图片的变形情况,并根据所述待识别地图图片的变形情况,对所述最终识别结果进行地理配准,得到地图注记数据。
2.根据权利要求1所述的方法,其特征在于,所述获取地图样本数据,并利用所述地图样本数据制作训练集和测试集,包括:
获取地图样本数据,并对所述地图样本数据进行预处理,得到样本图片;
使用标注工具,对所述样本图片中的数字0-9、浮点型数据框、以及整型数据框进行打标签,得到标注数据信息,并将所述标注数据信息转化为小目标检测模型所使用的格式,以得到地图样本集;
将所述地图样本集按比例分为训练集和测试集。
3.根据权利要求1所述的方法,其特征在于,所述利用所述训练集对小目标检测模型进行训练,并利用所述测试集对训练后的小目标检测模型进行测试,得到训练完成的小目标检测模型,包括:
采用Yolo检测模型作为小目标检测模型;
将所述训练集输入Yolo检测模型,并将Yolo检测模型的batch参数设置为10,得到训练后的Yolo检测模型;
将所述测试集输入所述训练后的Yolo检测模型进行测试,以得到训练完成的Yolo检测模型。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别地图图片,并对所述待识别地图图片进行不均匀分割裁剪,得到待识别图片,包括:
获取待识别地图图片;
设置裁剪阈值为目标注记大小的2.5-3.5倍,并分别在横向和竖向上,对图片进行不均匀分割裁剪,得到待识别图片;
其中,在横向上每个图片的宽度为:
式中为预设的图片宽度,/>为注记的宽度,/>为横向第/>个图片;
而在竖向上每个图片的高度为:
式中为预设的图片高度,/>为注记的宽度,/>为纵向第/>个图片。
5.根据权利要求1所述的方法,其特征在于,所述根据所述数据的实例及位置信息,基于浮点型、整型数据框对数据进行拼接,得到一次识别结果,包括:
将所述数据的实例分为数据框和数字;
根据所述数据的位置信息,遍历各数据框和数字,将位于同一数据框的数字放在一个数组中;
基于文字从左到右的书写习惯,根据数组内各个数字的横坐标大小从左到右排列,并将最后一位数字作为小数位,得到一次识别结果。
6.根据权利要求1所述的方法,其特征在于,所述根据所述数据的实例及位置信息,基于密度聚类算法对数据进行拼接,得到二次识别结果,包括:
获取所述待识别地图图片的像素、以及所述待识别地图图片中的最小注记距离;
提取所述数据的实例中的数字;
将数字对应数据框的中心点作为位置点,设置样本间的最大距离等于所述待识别地图图片中最小注记距离,并通过对小目标检测模型推理后的数字位置信息进行DBSCAN密度聚类,得到核心点、密度可达点、以及游离点;
根据所述核心点、密度可达点、以及游离点,将所述核心点、密度可达点、以及游离点对应的数字从左到右进行拼接,并检测各数字的数据框高度,将数据框高度低于所述待识别地图图片像素大小的数字作为小数位。
7.根据权利要求1所述的方法,其特征在于,所述获取所述待识别地图图片的变形情况,并根据所述待识别地图图片的变形情况,对所述最终识别结果进行地理配准,得到地图注记数据,包括:
获取所述待识别地图图片的变形情况;
当所述待识别地图图片存在不平整的问题时,在经度和纬度两个方向分别进行双线性插值对所述最终识别结果进行地理配准,得到地图注记数据;
当所述待识别地图图片存在扭曲变形的问题时,利用最小二乘法对所述最终识别结果进行地理配准,得到地图注记数据。
8.根据权利要求7所述的方法,其特征在于,所述当所述待识别地图图片存在扭曲变形的问题时,利用最小二乘法对所述最终识别结果进行地理配准,得到地图注记数据,包括:
从所述待识别地图图片中选取个点/>,然后拟合这些点在/>方向和/>方向上的变化函数;
利用所有样本的残差公式,选取残差最小的方案,残差公式如下:
式中为第个/>点的横坐标,/>为第/>个点的纵坐标,/>为点的总数量,/>为地图偏转角度,/>为拟合函数。
9.一种终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任意一项所述的基于计算机视觉模型的地图注记识别方法。
10.一种包含计算机可执行指令的存储介质,其特征在于:所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任意一项所述的基于计算机视觉模型的地图注记识别方法。
CN202311648914.4A 2023-12-05 2023-12-05 基于计算机视觉模型的地图注记识别方法、终端及介质 Active CN117372510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311648914.4A CN117372510B (zh) 2023-12-05 2023-12-05 基于计算机视觉模型的地图注记识别方法、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311648914.4A CN117372510B (zh) 2023-12-05 2023-12-05 基于计算机视觉模型的地图注记识别方法、终端及介质

Publications (2)

Publication Number Publication Date
CN117372510A CN117372510A (zh) 2024-01-09
CN117372510B true CN117372510B (zh) 2024-03-01

Family

ID=89398788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311648914.4A Active CN117372510B (zh) 2023-12-05 2023-12-05 基于计算机视觉模型的地图注记识别方法、终端及介质

Country Status (1)

Country Link
CN (1) CN117372510B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977191A (zh) * 2019-04-01 2019-07-05 国家基础地理信息中心 问题地图检测方法、装置、电子设备和介质
CN112036465A (zh) * 2020-08-26 2020-12-04 中国建设银行股份有限公司 图像识别方法、装置、设备及存储介质
CN113920419A (zh) * 2021-11-01 2022-01-11 中国人民解放军国防科技大学 一种图像数据处理方法及系统
CN114359931A (zh) * 2021-12-30 2022-04-15 深圳市丰巢网络技术有限公司 一种快递面单识别方法、装置、计算机设备及存储介质
CN114964210A (zh) * 2022-05-19 2022-08-30 中国第一汽车股份有限公司 地图绘制方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977191A (zh) * 2019-04-01 2019-07-05 国家基础地理信息中心 问题地图检测方法、装置、电子设备和介质
CN112036465A (zh) * 2020-08-26 2020-12-04 中国建设银行股份有限公司 图像识别方法、装置、设备及存储介质
CN113920419A (zh) * 2021-11-01 2022-01-11 中国人民解放军国防科技大学 一种图像数据处理方法及系统
CN114359931A (zh) * 2021-12-30 2022-04-15 深圳市丰巢网络技术有限公司 一种快递面单识别方法、装置、计算机设备及存储介质
CN114964210A (zh) * 2022-05-19 2022-08-30 中国第一汽车股份有限公司 地图绘制方法、装置、计算机设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Automatic Georeferencing of Topographic Raster Maps";Kenzo Milleville etc.;《MDPI》;全文 *
地形图数字注记的自动提取与识别;徐战武, 张涛, 刘肖琳;中文信息学报(02);全文 *
基于轮廓形状分析的地形图数字注记提取;郭丙轩, 李德仁, 雷震;武汉大学学报(信息科学版)(03);全文 *
扫描地形图中数字高程注记的提取和识别;陈睿, 张祖勋, 张剑清;武汉大学学报(信息科学版)(02);全文 *

Also Published As

Publication number Publication date
CN117372510A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN107067003B (zh) 感兴趣区域边界的提取方法、装置、设备和计算机存储介质
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
CN108229485B (zh) 用于测试用户界面的方法和装置
CN109977191B (zh) 问题地图检测方法、装置、电子设备和介质
US20210090266A1 (en) Method and device for labeling point of interest
CN112149667B (zh) 一种基于深度学习的指针式仪表的自动读数的方法
US11106933B2 (en) Method, device and system for processing image tagging information
CN112070135A (zh) 电力设备图像检测方法、装置、电力设备及存储介质
US11341319B2 (en) Visual data mapping
CN110569856A (zh) 样本标注方法及装置、损伤类别的识别方法及装置
CN112085022A (zh) 一种用于识别文字的方法、系统及设备
WO2022247823A1 (zh) 图像检测方法、设备和存储介质
CN110727816A (zh) 兴趣点类别确定方法和装置
CN111242922A (zh) 一种蛋白质图像分类方法、装置、设备及介质
CN117152484B (zh) 基于改进的YOLOv5s的小目标布匹瑕疵检测方法
CN111027456A (zh) 基于图像识别的机械水表读数识别方法
CN114820679B (zh) 图像标注方法、装置、电子设备和存储介质
CN114266881A (zh) 一种基于改进型语义分割网络的指针式仪表自动读数方法
CN116823793A (zh) 设备缺陷检测方法、装置、电子设备和可读存储介质
CN113537026B (zh) 建筑平面图中的图元检测方法、装置、设备及介质
CN114972880A (zh) 一种标签识别方法、装置、电子设备及存储介质
CN114694130A (zh) 基于深度学习的铁路沿线电线杆及杆号检测方法和装置
CN117372510B (zh) 基于计算机视觉模型的地图注记识别方法、终端及介质
Zhang et al. A YOLOv3‐Based Industrial Instrument Classification and Reading Recognition Method
CN113256581B (zh) 基于视觉注意建模融合的缺陷样本自动标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant