CN107871128B

CN107871128B - 一种基于svg动态图表的高鲁棒性图像识别方法

Info

Publication number: CN107871128B
Application number: CN201711304988.0A
Authority: CN
Inventors: 徐湛; 徐国江; 伍水平
Original assignee: Guangdong Source Of Wisdom Information Technology Co ltd; Guangzhou Institute Of Standardization (guangzhou Organization Code Management Center)
Current assignee: Guangdong Source Of Wisdom Information Technology Co ltd; Guangzhou Institute Of Standardization (guangzhou Organization Code Management Center)
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2023-06-06
Anticipated expiration: 2037-12-11
Also published as: CN107871128A

Abstract

本发明涉及一种基于SVG动态图表的高鲁棒性图像识别方法，是针对解决现有SVG图表的数据图像识别准确率较低，以及识别、筛选、获取方法欠佳的技术问题而设计。该图像识别方法的主要步骤如下：1）通过分析网站获取SVG动态图表中的所有坐标值信息；2）在坐标值组中随机选择三组坐标值，此外再获取纵坐标最大和最小的两组坐标值，共获取五组坐标值；3）对每组坐标值通过鼠标模拟的方式来获取到实际数据展示图；4）利用OCR的方式来获取每组坐标值的实际表示数据；5）对数据进行两两分组，求出任意两点间的实际表示数字与坐标之间的比例值，对数据进行筛选，选出准确度最高的比例值；6）通过数学计算的方式获取所有坐标值的实际数据。

Description

一种基于SVG动态图表的高鲁棒性图像识别方法

技术领域

本发明涉及网页动态图表的图像识别，特别是一种基于SVG动态图表的高鲁棒性图像识别方法。

背景技术

当前由于保护数据的需要，很多网站不会由页面直接读取数据，而是将数据转换为SVG格式的图表来在页面显示。SVG格式是一种在页面加载时动态生成的矢量图形语言，用户直接用代码来描绘图像，用任何文字处理工具打开SVG图像，通过改变部分代码来使图像具有交互功能，并随时插入到HTML中通过浏览器来观看，所以传统的爬虫技术无法有效的爬取SVG图表信息。而利用图像识别的方式读取数据经常会出现数据缺失的情况。当数据缺失时，图表会正常显示，但信息却看不到；此外图像识别的准确率也大大影响了数据获取的准确度，多种噪声的影响结合在一起，使爬取SVG图表数据几无可能。同时，由于SVG图表属于动态图表，传统的爬取静态网站的方式效果不大；针对SVG图表中的每一个坐标点进行图像识别，由于准确率的原因，识别越多，错误的数据就越多。并且识别消耗时间随着坐标的增加而急剧增加；对于SVG图表中的数据丢失的值或者SVG图表中显示的是错误的值无法有效地进行处理。主要原因是：没有处理动态加载的SVG图表网页内容；对图片识别的错误容忍度较低，无法有效避免错误。为此，如中国专利文献中披露的申请号201210572788.4，申请公布日2013.04.10，发明名称“一种在SVG界面中嵌入动态实时监测图表的方法”；该方法包括如下步骤：1）配置实时监测图表控件，并将配置好的图表控件存入数据库中，用唯一的图表控件配置ID区分；2）在SVG监测画面中绘制虚拟窗口并进行布局配置；3）在SVG监测界面中生成动态实时监测图表。实现虚拟窗口定义和配置，在SVG界面中快速插入、定位、关联及设定动态实时监测图表控件，虚拟窗口用于生成动态实时监测图表；解析包含虚拟窗口的SVG文件，将包含虚拟窗口的XML格式的SVG文件生成监测界面；在虚拟窗口处动态生成显示实时监测图表；从而解析和刷新速度加快，监测图表功能丰富、便捷、高效。但上述方法较难用于HTML静态文本内容，未采用图片OCR识别技术，数据筛选和坐标值的实际数据获取方法欠佳。同时，现有同类方法较少采用高鲁棒性图像识别方法，所谓“鲁棒性”，是指控制系统在一定（结构、大小）的参数摄动下，维持其它某些性能的特性。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。根据对性能的不同定义，分为稳定鲁棒性和性能鲁棒性，以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。

发明内容

为克服上述不足，本发明的目的是向本领域提供一种基于SVG动态图表的高鲁棒性图像识别方法，使其主要解决现有SVG图表的数据图像识别准确率较低，以及识别、筛选、获取方法欠佳的技术问题。其目的是通过如下技术方案实现的。

一种基于SVG动态图表的高鲁棒性图像识别方法，该图像识别方法的主要步骤如下：1）通过分析网站获取SVG（Scalable Vector Graphics，可缩放矢量图形）动态图表中的所有坐标值信息；2）在坐标值组中随机选择三组坐标值，此外再获取纵坐标最大和最小的两组坐标值，共获取五组坐标值；3）对每组坐标值通过鼠标模拟的方式来获取到实际数据展示图；4）利用OCR（Optical Character Recognition，光学字符识别）的方式来获取每组坐标值的实际表示数据；5）对数据进行两两分组，求出任意两点间的实际表示数字与坐标之间的比例值，对数据进行筛选，选出准确度最高的比例值；6）通过数学计算方式获取所有坐标值的实际数据。即该图像识别方法利用OCR识别技术，数据分组筛选和数学计算公式获得实际坐标值的实际数据，从而进一步提高了SVG图表的数据图像识别准确率。

HTML源码爬取：通过请求URL后得到完整的HTML静态文本内容，分析其内置的规律，从而找到对应的数据部分内容。图片OCR识别：通过下载图片内容或者屏幕截图方式，得到图片内容。对于图片上的内容直观、简单的时候使用，直接通过图片的OCR识别来从一定程度上抓取对于的数据内容。OCR文字识别，指利用OCR （Optical CharacterRecognition，光学字符识别）技术，将图片、照片上的文字内容，直接转换为可编辑文本的软件；软件把图片转换成可以编辑的文字，支持JPG、PNG、GIF、BMP、DOC等图片格式。

所述SVG动态图表通过浏览器的“开发者工具”功能，查找到SVG动态图表的标签；分析标签内容，查找到每一个坐标点的坐标值。

所述实际数据展示图通过程序控制浏览器加载对应的URL内容，在加载包含SVG动态图表的内容页面后，需要根据分析找出目标SVG坐标点位置；使用程序模拟实际的鼠标点击事件，促使页面动态加载包含实际业务意义数值的HTML对象层。

所述鼠标点击事件的模拟点击得到最大值提示和最小值提示，根据分析得到的动态提示对象的位置规律，程序自动识别其边界，实现动态提示区域的图片截取。

所述截取的图片进行二值化、图片放大、插值的预处理，然后进行图片的数字识别，得到SVG动态图表纵坐标刻度代表的数值；在OCR识别之后要对结果进行筛选处理，去除掉异常结果，OCR识别每组坐标的实际表示数据。

所述五组坐标值进行两两分组，利用“公式1”计算实际表示数字与坐标之间的比例，公式如下：

（公式1）

其中，v表示坐标代表的实际数值，y代表坐标点的纵坐标。

所述公式1得到的表格通过设定一个阈值的方法，出现次数大于阈值的被定为最终的比例值，排除掉识别不准或者数据异常的坐标值，选取一个非异常坐标作为下一步计算的基准坐标。

所述所有坐标值的实际数据采取类比推导的方式来计算其它各坐标点的纵坐标代表的数值；具体公式如“公式2”如下：

（公式2）

其中，y是要计算的纵坐标，v和k是基准坐标的实际数据和实际数据与坐标之间的比例。

所述网站分析、坐标值组选择、鼠标模拟、实际数据展示图获取、数据筛选，以及数学计算方式获取所有坐标值的实际数据通过计算机完成，计算机通过解析盒与网线连接，解析盒内的电路板设有存储器，存储器中设有高鲁棒性图像识别软件系统和解码认证系统，解析盒的一端设有网线联接口，另一端设有网线接线头和USB接线头，连接计算机的网线与解析盒的网线联接口连接，解析盒的网线接线头与计算机的网卡连接，解析盒的USB接线头与计算机的USB接口连接。从而解析盒中存储器的高鲁棒性图像识别软件系统通过USB接线头自动加载入计算机中，通过计算机打开的网页地址直接加载记录在解析盒的存储器中，解析盒作为网线连接器的同时，具有网关过滤和记录功能；同时，支持该图像识别方法设计软件的正版使用，以及系统的应用、销售。

所述解析盒内的电路板设有锂电池和移动wifi路由器，解析盒设有工作模式切换开关、USB扩展口和工作指示灯，工作模式切换开关、USB扩展口和工作指示灯通过线路与电路板连接。从而便于解析盒作为USB连接扩展器，以及移动wifi路由器使用。

本发明减少图像识别的次数，通过数学计算的方式来获取图表数值，降低时间消耗；增强图像识别的识别率，保证数学计算获取数值的正确性，其特别适用SVG动态图表的图像精确识别。

附图说明

图1是本发明的流程方框示意图。

图2是本发明的某网站包括SVG动态图表内容示意图。

图3是本发明的模拟点击得到最大值提示曲线图。

图4是本发明的模拟点击得到最小值提示曲线图。

图5是本发明的SVG动态图表解析盒结构示意图，图中虚线为网线联接口。

附图序号及名称：1、解析盒，2、网线联接口，3、网线接线头，4、USB接线头，5、工作模式切换开关，6、USB扩展口，7、工作指示灯。

具体实施方式

现结合附图，对本发明结构和使用作进一步描述。该图像识别方的整体流程如图1所示，以某网站包括的SVG动态图表内容作为具体实施案例，如图2所示。下面分别进行详细说明：1、提取SVG动态图表：通过浏览器的“开发者工具”功能，查找到SVG动态图表的标签；分析标签内容，查找到每一个坐标点的坐标值；2、选取坐标值组：在所有坐标中选取最大值和最小值的两个点，再随机选取三组坐标值，一共获取五组坐标值；这五组坐标值保证不能重复，如果发现重复，重新随机选取；3、获取坐标点实际数据展示图：通过程序控制浏览器加载对应的URL（Uniform Resource Locator，统一资源定位器）的内容，在加载包含SVG动态图表的内容页面后，需要根据分析找出目标SVG坐标点位置；使用程序模拟实际的鼠标点击事件，促使页面动态加载包含实际业务意义数值的HTML（Hyper Text Markup Language，超文本标记语言）对象层。模拟点击得到最大值提示，如图3所示；模拟点击得到最小值提示，如图4所示。根据分析得到的动态提示对象的位置规律，程序自动识别其边界，实现动态提示区域的图片截取。

4、OCR识别每组坐标的实际表示数据，即截取后的图片为便于识别，需要进行二值化、图片放大、插值等的预处理，然后进行图片的数字识别，得到SVG动态图表纵坐标刻度代表的数值。在这个过程中，由于OCR识别准确率无法保证达到一个满意值，并且上一步获取的实际数据展示图本身会出现异常的数字或没有值。所以，在OCR识别之后要对结果进行筛选处理，去除掉异常结果。通过之前的随机选择坐标点，保证了这一步一定会获取到足够的信息值，进而保证了数据获取的准确度。

5、计算实际表示数字与坐标之间的比例：对五组坐标值进行两两分组，利用“公式1”计算实际表示数字与坐标之间的比例。

（公式1）

其中，v表示坐标代表的实际数值，y代表坐标点的纵坐标。每次计算之前要将纵坐标进行比较，保证最终结果的符号正确。如果每一组坐标都识别准确会产生完全一致的20个比例值。如下表所示：


						10000	10000	10000	10000
10000		10000	10000	10000
					10000	10000		10000	8160
10000	10000	10000		10000
					10000	10000	10000	10000

通过设定一个阈值的方法，出现次数大于阈值的被定为最终的比例值，排除掉识别不准或者数据异常的坐标值（表中的粗体数字），进一步保证准确度。同时，将表中未被选取的值作为异常值（

，/>

），异常值对应的坐标设为异常坐标。最后，选取一个非异常坐标作为下一步计算的基准坐标（表中在/>

，/>

，/>

中选取）。

6、推导所有坐标值的实际数据：虽然可以利用图像识别的方法循环所有的坐标点来进行类似处理，但在图表坐标点较多时，严重影响效率。为优化处理速度，采取类比推导的方式来计算其它各坐标点的纵坐标代表的数值。具体公式如“公式2”如下：

（公式2）

其中，y是要计算的纵坐标，v和k是基准坐标的实际数据和实际数据与坐标之间的比例；通过推导得到统计图表的所有坐标对应的统计结果值，进而得到完整的统计结果，实现抓取目的。

另外，上述该高鲁棒性图像识别方法通过软件形式加载安装于计算机中，该高鲁棒性图像识别方法亦可制作成软件嵌套于解析盒1中同时销售和使用。如图5所示，解析盒的具体结构如下：解析盒的一端设有网线联接口2，另一端设有网线接线头3和USB接线头4，连接计算机的网线与解析盒的网线联接口连接，解析盒的网线接线头与计算机的网卡连接，解析盒的USB接线头与计算机的USB接口连接。同时，解析盒内的电路板设有锂电池和移动wifi路由器，解析盒设有工作模式切换开关5、USB扩展口6和工作指示灯7，工作模式切换开关、USB扩展口和工作指示灯通过线路与电路板连接。上述解析盒通过USB接线头加载安装该高鲁棒性图像识别方法的软件到计算机中，并通过解析盒的网线接线头和网线联接口连接网线，同时，解析盒除了作为软件安装盘使用，亦可作为网页记录器、移动存储器、USB连接扩展器、移动wifi路由器、网线连接器使用。

综上所述，本发明创建一种高速、高鲁棒性的SVG动态图表的数据内容分析方法，面向通用的网络爬虫方面，满足各个行业在数据采集中遇到目标网站图表采用SVG动态图表方式实现，采用特定技术手法抓取动态图表数据内容的具体实现方法。本发明基于SVG动态图表的多点识别方法，通过获取SVG图表的部分数值推导所有数值；即本发明采用多点OCR识别的方法提高系统的鲁棒性，采用计算实际表示数字与坐标之间比例值的方式，避免进行所有坐标的识别，提高运行速度，降低运行时间。本发明将多点识别技术应用于SVG动态图表内容的获取，降低异常数据和OCR错误识别对数据获取的影响，比现有的技术准确率更改。通过随机选取坐标点的方法，进而推算出图表实际意义数值和坐标点之间的关联；计算出所有图内的坐标点所表示的数据，避免对所有数据的一一识别，比现有的技术速度更快。

Claims

1.一种基于SVG动态图表的高鲁棒性图像识别方法，其特征在于该图像识别方法的主要步骤如下：

1)分析网站，通过分析网站获取SVG动态图表中的所有坐标值信息；

2)坐标值组选择，在坐标值组中随机选择三组坐标值，此外再获取纵坐标最大和最小的两组坐标值，共获取五组坐标值；

3)鼠标模拟，对每组坐标值通过鼠标模拟的方式来获取到实际数据展示图；

4)实际表示数据获取，利用OCR的方式来获取每组坐标值的实际表示数据；

5)数据筛选，对数据进行两两分组，求出任意两点间的实际表示数字与坐标之间的比例值，对数据进行筛选，选出准确度最高的比例值；

6)通过数学计算方式获取所有坐标值的实际数据；

所述步骤1)的具体步骤为：所述SVG动态图表通过浏览器的“开发者工具”功能，查找到SVG动态图表的标签；分析标签内容，查找到每一个坐标点的坐标值；

所述步骤3)的具体步骤为：所述实际数据展示图通过程序控制浏览器加载对应的URL内容，在加载包含SVG动态图表的内容页面后，需要根据分析找出目标SVG坐标点位置；使用程序模拟实际的鼠标点击事件，促使页面动态加载包含实际业务意义数值的HTML对象层；

通过鼠标点击事件的模拟点击得到最大值提示和最小值提示，根据分析得到的动态提示对象的位置规律，程序自动识别其边界，实现动态提示区域的图片截取；

所述步骤4)具体步骤为：对所述截取的图片进行二值化、图片放大、插值的预处理，然后进行图片的数字识别，得到SVG动态图表纵坐标刻度代表的数值；在OCR识别之后要对结果进行筛选处理，去除掉异常结果，OCR识别每组坐标的实际表示数据；

所述步骤5)的具体步骤为：对所述五组坐标值进行两两分组，利用“公式1”计算实际表示数字与坐标之间的比例，公式如下：

其中，v表示坐标代表的实际数值，y代表坐标点的纵坐标；所述公式1得到的表格通过设定一个阈值的方法，出现次数大于阈值的被定为最终的比例值，排除掉识别不准或者数据异常的坐标值，选取一个非异常坐标作为下一步计算的基准坐标；

所述步骤6)的具体步骤为：所述所有坐标值的实际数据采取类比推导的方式来计算其它各坐标点的纵坐标代表的数值；具体公式如“公式2”如下：

v＝v′+k×(y-y′) (公式2)

其中，y是要计算的纵坐标，v和k是基准坐标的实际数据和实际数据与坐标之间的比例；

所述网站分析、坐标值组选择、鼠标模拟、实际数据展示图获取、数据筛选，以及数学计算方式获取所有坐标值的实际数据通过计算机完成，计算机通过解析盒(1)与网线连接，解析盒内的电路板设有存储器，存储器中设有高鲁棒性图像识别软件系统和解码认证系统，解析盒的一端设有网线联接口(2)，另一端设有网线接线头(3)和USB接线头(4)，连接计算机的网线与解析盒的网线联接口连接，解析盒的网线接线头与计算机的网卡连接，解析盒的USB接线头与计算机的USB接口连接；所述解析盒(1)内的电路板设有锂电池和移动wifi路由器，解析盒设有工作模式切换开关(5)、USB扩展口(6)和工作指示灯(7)，工作模式切换开关、USB扩展口和工作指示灯通过线路与电路板连接。