CN110189345A - 一种数据图中数据点坐标信息的提取方法 - Google Patents

一种数据图中数据点坐标信息的提取方法 Download PDF

Info

Publication number
CN110189345A
CN110189345A CN201910348725.2A CN201910348725A CN110189345A CN 110189345 A CN110189345 A CN 110189345A CN 201910348725 A CN201910348725 A CN 201910348725A CN 110189345 A CN110189345 A CN 110189345A
Authority
CN
China
Prior art keywords
data point
datagram
coordinate information
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910348725.2A
Other languages
English (en)
Inventor
张克俊
郑俊
黄小倚
陈洁
刘�东
毕磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910348725.2A priority Critical patent/CN110189345A/zh
Publication of CN110189345A publication Critical patent/CN110189345A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据图中数据点坐标信息的提取方法,包括以下步骤:对数据图进行倾斜矫正和数据点区域提取;对每类数据图,对数据点区域进行数据点提取;按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息。该提取方法能够自动准确地识别数据图中数据点坐标信息。

Description

一种数据图中数据点坐标信息的提取方法
技术领域
本发明属于计算机图像识别领域,具体涉及一种数据图中数据点坐标信息的提取方法。
背景技术
对很多领域的专业文献进行阅读时,作者通常以文本来描述统计数值,然而其对应的海量的实验或模拟数据点却隐藏在文献的图像,也就是数据图中,这些数据一般不被作者公开,但有时候人们需要得到这些数据,以支持数据的拟合对比或者数据库的建立。甚至自己收集的数据也会在某些意外情况下丢失,而只剩下数据图,在这些情况下,我们特别需要一种能够尽可能自动化还原数据图中数据点的方法或装置,来对数据进行采集或恢复。
目前的坐标图像数字化领域,已经有较多的专业化工具,如EngaugeDigitizer等。这些工具同样能够比较好地提取出图内包含的数据点坐标,但是大多的工具都需要较多人工的辅助。如在原点选取的流程中一般都是直接初始化左下角为原点,并直接通过人工鼠标点击来精确的修正,耗时耗力并且较为枯燥。对于有些质量较差的图像来说,还可能存在一些坐标轴倾斜的现象,对数据的识别准确度造成了干扰。此外,目前的这些工具在属性颜色分类问题上,大多也只是通过人工鼠标取色或输入具体色值来实现与目标类别相对应的匹配。
其中涉及到的图像倾斜矫正领域及信息区域的提取与矫正技术在拍照识别领域已有较多的研究,如“全能扫描王”、“车牌识别”等,但在针对坐标轴的信息区域识别及倾斜矫正任务上并没有被普遍的运用,而本发明将此技术进行结合,期望能够进一步解放人力,提供更加智能的数据点坐标提取的服务。
发明内容
本发明的目的是提供一种数据图中数据点坐标信息的提取方法,该提取方法能够自动准确地识别数据图中数据点坐标信息。
为实现上述发明目的,本发明提供以下技术方案:
一种数据图中数据点坐标信息的提取方法,包括以下步骤:
对数据图进行倾斜矫正和数据点区域提取;
对每类数据图,对数据点区域进行数据点提取;
按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息。
与现有技术相比,本发明具有以下效果:
本发明提供的提取方法在对数据图进行倾斜矫正和数据点区域提取的基础上,能够快速准确地从数据图中提取数据点坐标信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明提供的数据图中数据点坐标信息的提取方法的流程图;
图2(a)是数据图,图2(b)是对图2(a)矫正后获得的矫正图,图2(c)是对图2(b)进行提取获得的数据点区域图;
图3(a)是原散点图,图3(b)是对图3(a)进行散点识别获得的散点识别结果图。
图4(a)是原折线图,图4(b)是对图4(a)进行折线识别获得的折线识别结果图;
图5(a)是原柱形图,图5(b)是对图5(a)进行柱形识别获得的柱形识别结果图;
图6(a)是折线图中部分折线图,放大图,图6(b)是对图6(a)中方框区域的放大图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,实施例提供的数据图中数据点坐标信息的提取方法,当给定一张散点图、折线图或柱状图,能自动地确定原点位置,并且根据不同的图类型实行不同的数据提取方案,以此得到数据点坐标并进行导出。具体地,包括以下步骤:
S101,输入一张待处理的数据图,并输入横纵轴的坐标属性及极坐标阈值。
其中,将表示数据特性的散点图、折线图以及柱形图称为数据图。通常情况下,x_name:横轴属性,x1:横轴最小值,x2:横轴最大值,y_name:纵轴属性,y1:纵轴最小值,y2:纵轴最大值。
S102,对数据图进行倾斜矫正和数据点区域提取。
一般输入的数据图会存在图像倾斜的问题,为了提升数据点坐标信息的提取准确性,需要对数据图进行校正,具体地,所述对数据图进行倾斜矫正和数据点区域提取包括:
采用平均值法对数据图进行灰度化,获得灰度图像;具体地,利用公式(1)计算像素点(i,j)的灰度值:
Gray(i,j)=(R(i,j)+G(i,j)+B(i,j)) (1)
其中,R(i,j),G(i,j),B(i,j)分别代表像素位置(i,j)所对应的R,G,B通道颜色值;
采用OpenCV的Canny算子检测灰度图像的图像边缘;
采用Hough变换检测方法检测图像边缘内的直线集合,并提取最长直线L1;
举例说明,可以利用以下程序检测最长直线:
计算最长直线L1的倾斜角度,根据倾斜角度对灰度图像进行旋转以实现倾斜矫正;
在图像边缘内搜索与最长直线L1垂直的最长垂直交线L2,以最长直线L1和最长垂直交线L2的交点为原点,以最长直线L1和最长垂直交线L2作为边界,提取数据点区域。
举例说明,对于图2(a)所示的原数据图,经过倾斜矫正后获得如图2(b)所示的图,再经过区域提取以后,获得如图2(c)所示的数据点区域图。
S103,对每类数据图,对数据点区域进行数据点提取。
为了提升数据点坐标信息的提取速率,针对散点图、折线图以及柱形图,采用不同的提取方式,具体如下:
当数据图为散点图时,采用霍夫梯度法进行霍夫圆形检测,以获得散点图中的圆形像素点,该圆形像素点即为数据点。
霍夫圆形检测方法主要利用了边缘检测的到的每一个点利用Sobel函数计算其梯度,并利用该梯度由斜率指定的直线上每一个点在累加器中进行累加,从二维累加器中选择候选中心,并对每一个中心,考虑所有的非0像素,如果一个候选中心收到边缘图像非0像素最充分的支持,并且到前期被选择的中心有足够的距离,就确定该候选圆心为所需识别的圆的圆心。
举例说明,图3(a)是原散点图,利用霍夫圆形检测后即可以获得如图3(b)所示的散点识别结果图。
当数据图为折线图时,根据高度从上到下遍历每一行对应的像素列表中所有像素点,求每一行像素点的中位数作为数据点。
举例说明,可以利用以下程序进行折线数据抽取:
图4(a)是原折线图,对图4(a)进行折线识别获得图4(b)所示的折线识别结果图。通过抽取结果的拟合曲线对比,可以得出利用遍历数据点并取有效数据点的中位数的方法效果良好,能够较好地抽取折线图中的数据。
当数据图为柱形图时,采用边缘检测方法识别横线,并当横线上方面积为空白区域时,该横线的中间像素点即为数据点。
举例说明,图5(a)是原柱形图,对图5(a)进行柱形识别获得如图5(b)所示的柱形识别结果图。
S104,按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息。
在获得用像素点表示的数据点后,还需要将数据点转化为数学领域中表示具体数据含义的数据点坐标信息。具体地,所述按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息包括:
利用公式(2)和公式(3)将数据点转化为数据点坐标信息:
x=X1+(X2-X1)*b/width (2)
y=Y1+(Y2-Y1)*(height-a+1)/height (3)
其中,X1、X2、Y1、Y2分别为预设的横坐标轴最小值、最大值,纵坐标最小值、最大值,(a,b)表示数据点的像素坐标,width和height分别表示数据图的宽度和高度。
由于散点图和折线图存在多类别的情况较为常见,通常数据以不同颜色来进行区分,传统的分类通常依靠用户手动点击选取色值或手动输入色值,对于散点图来说还比较合适,但是很多画图软件画的折线在非横竖或者45度斜时存在反走样问题,即曲线边缘颜色有渐变,如图6(a)和图6(b),这使得对于折线图的颜色分类问题,若直接让用户输入特定色值显得比较艰难,同时若让用户由鼠标来选取,也可能因为精度问题没有选取到最中心的颜色值导致预期的结果出现偏差。因此在本发明中简化了此过程,用户只需要输入总的分类数k,即可自动给出分类数对应的颜色值选项。
在另外一个实施方式中,所述提取方法还包括:
当散点图和折线图中存在多类别数据时,通过聚类的方式确定每个类别数据对应的颜色值,并根据类别对应的颜色值对每类数据进行修正;
当接收用户输入的数据类别对应的颜色值时,即能够实现对该类别数据点坐标信息的提取和自动分类。
具体地,所述通过聚类的方式确定每个类别数据对应的颜色值包括:
对图像进行边缘分析提取折线图图中的折线像素集合,通过遍历已识别的散点圆心及其半径所对应的圆形区域来提取散点对应的像素集合,利用Kmeans聚类法对散点或折线的像素值进行聚类,记录k个聚类簇的聚类中心的像素值,并把每个聚类簇中的所有像素点的像素值修改为对应聚类中心的像素值,这样即获得了每个类别数据对应的颜色值,同时将聚类中心的像素值以颜色条的形式进行显示。
对图像进行边缘分析时,可以使用opencv的边缘检测算法,用Candy算子对图像进行卷积,可得出每个像素的纵向及横向的亮度差分近似值,将梯度幅值大于阈值的点标记为边缘。
本实施例提供的提取方法在对数据图进行倾斜矫正和数据点区域提取的基础上,能够快速准确地从数据图中提取数据点坐标信息。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据图中数据点坐标信息的提取方法,包括以下步骤:
对数据图进行倾斜矫正和数据点区域提取;
对每类数据图,对数据点区域进行数据点提取;
按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息。
2.如权利要求1所述的数据图中数据点坐标信息的提取方法,其特征在于,所述对数据图进行倾斜矫正和数据点区域提取包括:
采用平均值法对数据图进行灰度化,获得灰度图像;
采用OpenCV的Canny算子检测灰度图像的图像边缘;
采用Hough变换检测方法检测图像边缘内的直线集合,并提取最长直线L1;
计算最长直线L1的倾斜角度,根据倾斜角度对灰度图像进行旋转以实现倾斜矫正;
在图像边缘内搜索与最长直线L1垂直的最长垂直交线L2,以最长直线L1和最长垂直交线L2的交点为原点,以最长直线L1和最长垂直交线L2作为边界,提取数据点区域。
3.如权利要求2所述的数据图中数据点坐标信息的提取方法,其特征在于,当数据图为散点图时,采用霍夫梯度法进行霍夫圆形检测,以获得散点图中的圆形像素点,该圆形像素点即为数据点。
4.如权利要求2所述的数据图中数据点坐标信息的提取方法,其特征在于,当数据图为折线图时,根据高度从上到下遍历每一行对应的像素列表中所有像素点,求每一行像素点的中位数作为数据点。
5.如权利要求2所述的数据图中数据点坐标信息的提取方法,其特征在于,当数据图为柱形图时,采用边缘检测方法识别横线,并当横线上方面积为空白区域时,该横线的中间像素点即为数据点。
6.如权利要求3~5任一项所述的数据图中数据点坐标信息的提取方法,其特征在于,所述按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息包括:
利用公式(1)和公式(2)将数据点转化为数据点坐标信息:
x=X1+(X2-X1)*b/width (1)
y=Y1+(Y2-Y1)*(height-a+1)/height (2)
其中,X1、X2、Y1、Y2分别为预设的横坐标轴最小值、最大值,纵坐标最小值、最大值,(a,b)表示数据点的像素坐标,width和height分别表示数据图的宽度和高度。
7.如权利要求6所述的数据图中数据点坐标信息的提取方法,其特征在于,所述提取方法还包括:
当散点图和折线图中存在多类别数据时,通过聚类的方式确定每个类别数据对应的颜色值,并根据类别对应的颜色值对每类数据进行修正;
当接收用户输入的数据类别对应的颜色值时,即能够实现对该类别数据点坐标信息的提取和自动分类。
8.如权利要求7所述的数据图中数据点坐标信息的提取方法,其特征在于,所述通过聚类的方式确定每个类别数据对应的颜色值包括:
对图像进行边缘分析,提取散点图中的散点或折线图图中的折线,通过遍历已识别的散点圆心及其半径所对应的圆形区域来提取散点对应的像素集合,利用Kmeans聚类法对散点或折线的像素值进行聚类,记录k个聚类簇的聚类中心的像素值,并把每个聚类簇中的所有像素点的像素值修改为对应聚类中心的像素值,这样即获得了每个类别数据对应的颜色值,同时将聚类中心的像素值以颜色条的形式进行显示。
CN201910348725.2A 2019-04-28 2019-04-28 一种数据图中数据点坐标信息的提取方法 Pending CN110189345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910348725.2A CN110189345A (zh) 2019-04-28 2019-04-28 一种数据图中数据点坐标信息的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910348725.2A CN110189345A (zh) 2019-04-28 2019-04-28 一种数据图中数据点坐标信息的提取方法

Publications (1)

Publication Number Publication Date
CN110189345A true CN110189345A (zh) 2019-08-30

Family

ID=67715237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910348725.2A Pending CN110189345A (zh) 2019-04-28 2019-04-28 一种数据图中数据点坐标信息的提取方法

Country Status (1)

Country Link
CN (1) CN110189345A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651315A (zh) * 2020-12-17 2021-04-13 苏州超云生命智能产业研究院有限公司 折线图的信息提取方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636717A (zh) * 2014-12-24 2015-05-20 四川超凡知识产权服务股份有限公司 图表识别的方法及装置
CN107168961A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 图表的数据展示方法及装置
CN107507191A (zh) * 2017-07-18 2017-12-22 郑州轻工业学院 一种树冠通透度的计算方法
CN107886047A (zh) * 2017-10-13 2018-04-06 上海眼控科技股份有限公司 一种车辆年检检验报告的检测系统及方法
CN107909068A (zh) * 2017-11-24 2018-04-13 苏州灯蓝软件科技有限公司 一种大数据图像曲线反向解析方法及系统
CN109189997A (zh) * 2018-08-10 2019-01-11 武汉优品楚鼎科技有限公司 一种折线图数据提取的方法、装置及设备
CN109271844A (zh) * 2018-07-29 2019-01-25 国网上海市电力公司 基于OpenCV的电气柜电气符号识别方法
CN109522532A (zh) * 2017-09-19 2019-03-26 北京国双科技有限公司 一种折线图框选范围的计算方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636717A (zh) * 2014-12-24 2015-05-20 四川超凡知识产权服务股份有限公司 图表识别的方法及装置
CN107168961A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 图表的数据展示方法及装置
CN107507191A (zh) * 2017-07-18 2017-12-22 郑州轻工业学院 一种树冠通透度的计算方法
CN109522532A (zh) * 2017-09-19 2019-03-26 北京国双科技有限公司 一种折线图框选范围的计算方法及装置
CN107886047A (zh) * 2017-10-13 2018-04-06 上海眼控科技股份有限公司 一种车辆年检检验报告的检测系统及方法
CN107909068A (zh) * 2017-11-24 2018-04-13 苏州灯蓝软件科技有限公司 一种大数据图像曲线反向解析方法及系统
CN109271844A (zh) * 2018-07-29 2019-01-25 国网上海市电力公司 基于OpenCV的电气柜电气符号识别方法
CN109189997A (zh) * 2018-08-10 2019-01-11 武汉优品楚鼎科技有限公司 一种折线图数据提取的方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651315A (zh) * 2020-12-17 2021-04-13 苏州超云生命智能产业研究院有限公司 折线图的信息提取方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN104751187B (zh) 抄表图像自动识别方法
CN107610114B (zh) 基于支持向量机的光学卫星遥感影像云雪雾检测方法
CN110119741B (zh) 一种有背景的卡证图像信息识别方法
US6778703B1 (en) Form recognition using reference areas
CN103034848B (zh) 一种表单类型的识别方法
US8326029B1 (en) Background color driven content retrieval
CN109409355B (zh) 一种新型变压器铭牌识别的方法及装置
CN102704215B (zh) 基于dst文件解析与机器视觉结合的绣布自动切割方法
CN106570510B (zh) 一种超市商品识别方法
CN111046872B (zh) 一种光学字符识别方法
CN107392968B (zh) 融合颜色对比图和颜色空间分布图的图像显著性检测方法
CN108133216B (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
CN109727279B (zh) 一种矢量数据与遥感影像的自动配准方法
WO2018086233A1 (zh) 一种字符分割方法和装置、及元件检测方法和装置
CN103971126A (zh) 一种交通标志识别方法和装置
CN103077529A (zh) 基于图像扫描的植物叶片特征分析系统
CN114331986A (zh) 一种基于无人机视觉的坝体裂纹识别与测量方法
CN106874893A (zh) 一种试卷分数的统计方法及系统
JP4747122B2 (ja) 特定領域自動抽出システム、特定領域自動抽出方法、および、プログラム
CN107679479A (zh) 一种基于图像形态学处理的客观填涂识别方法
CN110335280A (zh) 一种基于移动端的金融单据图像分割与矫正方法
CN115512379A (zh) 一种识别提取纸质文本中复选框勾选结果的方法及系统
CN115588208A (zh) 一种基于数字图像处理技术的全线表结构识别方法
CN114140794A (zh) 一种基于ocr的通用图像校正方法
CN110189345A (zh) 一种数据图中数据点坐标信息的提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830

RJ01 Rejection of invention patent application after publication