CN109840278A - 柱状图数据转换控制方法、装置、计算机设备及存储介质 - Google Patents

柱状图数据转换控制方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109840278A
CN109840278A CN201910079912.5A CN201910079912A CN109840278A CN 109840278 A CN109840278 A CN 109840278A CN 201910079912 A CN201910079912 A CN 201910079912A CN 109840278 A CN109840278 A CN 109840278A
Authority
CN
China
Prior art keywords
information
target
column
histogram
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910079912.5A
Other languages
English (en)
Inventor
孙强
卢波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910079912.5A priority Critical patent/CN109840278A/zh
Publication of CN109840278A publication Critical patent/CN109840278A/zh
Priority to PCT/CN2019/117470 priority patent/WO2020155757A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种柱状图数据转换控制方法、装置、计算机设备及存储介质,包括下述步骤:获取目标柱状图中至少一个柱状目标的图像信息,其中,图像信息包括柱状目标的柱状属性信息以及柱状目标所映射对象的对象属性信息;根据目标柱状图中预设的标准化信息和柱状属性信息进行计算生成对象的数量值信息;将对象属性信息以及数量值信息进行结构化转换生成键值对形式的结构化目标数据。本发明实施例通过获取目标柱状图中的多个柱状目标的柱状属性信息和对象属性信息,然后计算出对象的数量值信息,然后将对象属性信息和数量值信息进行结构化转换成结构化目标数据,进而可以存储于结构化数据库中,方便数据的读取,且减少数据占用的空间。

Description

柱状图数据转换控制方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据分析技术领域,尤其是一种柱状图数据转换控制方法、装置、计算机设备及存储介质。
背景技术
在工作和生活中,经常需要使用到柱状图用于进行数据的统计和分析,比如现代的电子产品和一些软件的分析测试或者产品销量的季度报告等,柱状图(bar chart)是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析,在具体的使用过程中,柱状图亦可横向排列,或用多维方式表达。
但是,由于柱状图是图像,导致柱状图中的数据也是通过图形的方式表示的,柱状图中数据不能像数据库中的数据一样直接被读取,不易获取柱状图中的数据,而且,柱状图采用图像的形式进行存储,占用存储空间大,使用不方便。
发明内容
本发明实施例提供一种将柱状图解析为结构化数据的柱状图数据转换控制方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种柱状图数据转换控制方法,包括下述步骤:
获取目标柱状图中至少一个柱状目标的图像信息,其中,所述图像信息包括所述柱状目标的柱状属性信息以及所述柱状目标所映射对象的对象属性信息;
根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息;
将所述对象属性信息以及所述数量值信息进行结构化转换生成键值对形式的结构化目标数据。
可选地,所述获取目标柱状图中至少一个柱状目标的图像信息的步骤之前,还包括如下述步骤:
获取所述目标柱状图中与所述柱状目标对应的文字图像;
根据所述文字图像识别所述柱状目标所映射的对象的名称信息,其中,所述属性信息包括所述名称信息。
可选地,所述根据所述文字图像识别所述柱状目标所映射的对象的名称信息的步骤,包括如下述步骤:
将所述文字图像输入至预设的文字识别模型中,其中,所述文字识别模型为训练至收敛的用于识别图像中文字的卷积神经网络模型;
获取所述文字识别模型输出的所述对象的名称信息。
可选地,所述根据所述文字图像识别所述柱状目标所映射的对象的名称信息的步骤之后,还包括如下述步骤:
获取所述文字图像中表征所述对象数量的统计数值信息;
将所述统计数值信息与所述数量值信息之间的数量差值与预设的对比阈值进行比对;
当所述数量差值大于所述对比阈值时,将所述数量值信息替换成所述统计数值信息。
可选地,所述根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息的步骤,包括如下述步骤:
获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息;
根据所述高度信息和所述标准化信息计算所述柱状目标所映射的对象的数量值信息。
可选地,所述获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息的步骤,包括如下述步骤:
获取所述柱状目标在所述目标柱状图中的最高点的目标纵坐标信息;
根据所述目标纵坐标信息和所述目标柱状图的原点纵坐标信息计算出所述柱状目标的高度信息。
为解决上述技术问题,本发明实施例还提供一种柱状图数据转换控制装置,包括:
第一获取模块,用于获取目标柱状图中至少一个柱状目标的图像信息,其中,所述图像信息包括所述柱状目标的柱状属性信息以及所述柱状目标所映射对象的对象属性信息;
第一处理模块,用于根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息;
第一执行模块,用于将所述对象属性信息以及所述数量值信息进行结构化转换生成键值对形式的结构化目标数据。
可选地,还包括:
第二获取模块,用于获取所述目标柱状图中与所述柱状目标对应的文字图像;
第二执行模块,用于根据所述文字图像识别所述柱状目标所映射对象的名称信息,其中,所述对象属性信息包括所述名称信息。
可选地,还包括:
第一执行子模块,用于将所述文字图像输入至预设的文字识别模型中,其中,所述文字识别模型为训练至收敛的用于识别图像中文字的卷积神经网络模型;
第一获取子模块,用于获取所述文字识别模型输出的所述对象的名称信息。
可选地,还包括:
第三获取模块,用于获取所述文字图像中表征所述对象数量的统计数值信息;
比对模块,用于将所述统计数值信息与所述数量值信息之间的数量差值与预设的对比阈值进行比对;
第三执行模块,用于当所述数量差值大于所述对比阈值时,将所述数量值信息替换成所述统计数值信息。
可选地,还包括:
第二获取子模块,用于获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息;
第二执行子模块,用于根据所述高度信息和所述标准化信息计算所述柱状目标所映射的对象的数量值信息。
可选地,还包括:
第三获取子模块,用于获取所述柱状目标在所述目标柱状图中的最高点的目标纵坐标信息;
第三执行子模块,用于根据所述目标纵坐标信息和所述目标柱状图的原点纵坐标信息计算出所述柱状目标的高度信息。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述柱状图数据转换控制方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述柱状图数据转换控制方法的步骤。
本发明实施例的有益效果为:通过获取目标柱状图中的多个柱状目标的图像信息,柱状目标是目标柱状图中的柱状成员,该图像信息中包括柱状目标的柱状属性信息和柱状目标所映射的对象的对象属性信息,根据该柱状目标的柱状属性信息和目标柱状图中的标准化信息计算出柱状目标所映射的对象的数量值信息,然后根据将该对象的对象属性信息和数量值信息进行结构化处理,从而转换成键值对形式的结构化目标数据,进而可以存储于结构化数据库中,方便数据的读取,且减少数据占用的空间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例柱状图数据转换控制方法的基本流程示意图;
图2为本发明实施例获取对象属性信息的流程示意图;
图3为本发明实施例识别文字图像的流程示意图;
图4为本发明实施例重置数量值信息的流程示意图;
图5为本发明实施例计算对象的数量值信息的流程示意图;
图6为本发明实施例获取柱状目标的高度信息的流程示意图;
图7为本发明实施例柱状图数据转换控制装置基本结构示意图;
图8为本发明实施例计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
具体请参阅图1,图1为本实施例柱状图数据转换控制方法的基本流程示意图。
如图1所示,一种柱状图数据转换控制方法,包括下述步骤:
S1100、获取目标柱状图中至少一个柱状目标的图像信息,其中,所述图像信息包括所述柱状目标的柱状属性信息以及所述柱状目标所映射对象的对象属性信息;
将柱状图转换成结构化数据需要先获取目标柱状图中各个柱状目标的图像信息,柱状目标是指目标柱状图中的各个数据内容,以目标柱状图为汽车季度销量报告为例,目标柱状图中设置有四个柱状目标,每个柱状目标对应一个季度的汽车销量,由于每个季度的汽车销量的数据不相同,所以各个柱状目标的图像信息也不相同,图像信息中包括柱状目标的柱状属性信息和该柱状目标所映射的对象的属性信息,柱状属性信息包括该柱状目标在目标柱状图中的位置、高度以及表征对象的数量等信息,对象的属性信息包括对象的名称以及所属的类别等信息。
在一个实施例中,以目标柱状图为公司月度营业额报告为例,该目标柱状图中设置有多个柱状目标,例如当月有30天,则设置有30个柱状目标,每个柱状目标代表一天的营业额,则每个柱状目标的柱状属性信息是指当天营业额的额度信息,该柱状目标所映射的对象是指公司销售的产品,例如销售钢笔的月度营业额的柱状图,则该柱状图中每个柱状目标所映射的对象就是钢笔,对象的对象属性信息为该对象的名称信息或者所属分类的类别信息,例如将钢笔划分为文具类。在实施时,目标柱状图中各个柱状目标的图像信息可以通过图像识别技术获取得到,例如通过图像处理计算得到柱状目标的柱状属性信息,图像处理(image processing)是一种用计算机对图像进行分析以达到所需结果的技术,例如通过使用Adobe Photoshop、Adobe Illustrator或者CorelDRAW图像处理软件应用对目标柱状图进行分析处理以获取目标柱状图中多个柱状目标的图像信息。
S1200、根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息;
在获取目标柱状图中柱状目标的图像信息后,根据该目标柱状图中预设的标准化信息和柱状目标的柱状属性信息进行计算,以生成柱状目标所映射的对象的数量值信息,在实施时,标准化信息是指目标柱状图中用于衡量和标注柱状目标的数量等级的基准,例如在目标柱状图的纵坐标方向上设置有刻度,每一刻度就是标准化信息所映射的数量,根据该标准化信息和柱状属性信息即可计算出对象的数量值信息,例如柱状目标在目标柱状图中纵坐标方向上的高度等于3个刻度,即柱状目标的柱状属性信息所映射对象的数量为标准化信息所映射的数量的3倍,以标准化信息表示为5万为例,该柱状目标所映射对象的数量为15万,即可以根据该标准信息和柱状属性信息计算出该柱状目标对应的对象的数量值信息,该数量值信息是指对象的具体数值。
S1300、将所述对象属性信息以及所述数量值信息进行结构化转换生成键值对形式的结构化目标数据。
在计算出柱状目标所映射的对象的数量值信息后,将该对象的对象属性信息和数量值信息进行结构化转换生成结构化目标数据,该结构化目标数据为键值对形式,键值对(Key-Value)存储是数据库最简单的组织形式,其中,对象属性信息作为Key而数量值信息作为Value形成Key-Value结构数据,在实施时,以商场第一季度的运动鞋销量柱状图(目标柱状图)为例,该柱状图中包括3个柱状目标,分别为一月份柱状目标、二月份柱状目标和三月份柱状目标,一月份柱状目标、二月份柱状目标和三月份柱状目标分别表示一月份、二月份和三月份当月运动鞋的售出数量,例如一月份售出运动鞋为450双,二月份售出运动鞋为500双,三月份售出运动鞋为345双,则每个柱状目标的柱状属性信息不同,具体地,可以通过柱状目标的在柱状图中的高度表示当月运动鞋的销售数量,系统首先获取柱状图中3个柱状目标的图像信息,包括每个柱状目标的柱状属性信息和柱状目标所映射对象的对象属性信息,其中,柱状目标所映射的对象为运动鞋,该对象的对象属性信息为运动鞋的名称或者所属类别,例如在该柱状图中对象的对象属性信息为“XX运动鞋YY月份销量”或者“运动用品YY月份销量”,其中“XX”表示运动鞋的品牌名称,“YY”表示具体的月份,柱状目标的柱状属性信息包括该柱状目标在柱状图中的高度,具体地,可以通过图像处理提取每个柱状目标的高度,然后根据柱状图中预设的标准化信息和该各个柱状目标的柱状属性信息计算出对象的数量值信息,在实施时,标准信息是柱状图中预设的用于衡量柱状目标中对象数量的标准,举例说明:在柱状图的纵坐标方向上分为10个标准单位的高度,且从下往上每高一个标准单位的高度代表运动鞋的售出数量多100双,标准单位是柱状图中预设的标准化信息,则根据柱状图中各个柱状目标的图像信息可以获取第一月份、二月份和三月份运动鞋的售出数量,例如一月份柱状目标的高度为4.5个标准单位的高度,第二月份柱状目标为5.0个标准单位的高度,第三月份柱状目标为3.45个标准单位的高度,系统再根据柱状属性信息和标准化信息分别计算出各个柱状目标对应的对象的数量值信息,然后将该对象的对象属性信息和数量值信息进行结构化转换以生成结构化目标数据,结构化目标数据为键值对形式,例如第一月份柱状目标、第二月份柱状目标和第三月份柱状目标分别进行结构化转换:运动鞋第一月份销量-450、运动鞋第二月份销量-500和运动鞋第三月份销量-345,生成的结构化目标数据能够存储与结构化数据库中,方便直接读取和获取柱状图中的具体数据。
在一个实施例中,在目标柱状图中涉及到不同种类的对象,以公司办公用消耗品为例,公司办公用品中的消耗品包括打印纸、笔以及橡皮擦等,在公司的年度办公用品消耗统计的柱状图中,包括分别与打印纸、笔和橡皮擦对应的第一柱状目标、第二柱状目标和第三柱状目标,通过获取柱状图中各个柱状目标的图像信息,并根据各个柱状目标的图像信息和该柱状图中的标准化信息计算出打印纸、笔和橡皮擦的数量值信息,然后将打印纸、笔和橡皮擦和其分别对应的数量值信息进行结构化转换生成键值对形式的结构化目标数据,例如生成的结构化目标数据的意思表达为:打印纸年度消耗数量-10万张,笔年度消耗数量-5万支,橡皮擦年度消耗数量-2000块。从而可以存储到结构化数据库中,方便数据信息的读取和存储。
本实施例通过获取目标柱状图中的多个柱状目标的图像信息,柱状目标是目标柱状图中的柱状成员,该图像信息中包括柱状目标的柱状属性信息和柱状目标所映射对象的对象属性信息,根据该柱状目标的柱状属性信息和目标柱状图中的标准化信息计算出柱状目标所映射的对象的数量值信息,然后根据将该对象的对象属性信息和数量值信息进行结构化处理,从而转换成键值对形式的结构化目标数据,进而可以存储于结构化数据库中,方便数据的读取,且减少数据占用的空间。
在一个可选实施例中,请参阅图2,图2是本发明一个实施例获取对象属性信息的具体流程示意图。
如图2所示,步骤1100之前,还包括如下述步骤:
S1010、获取所述目标柱状图中与所述柱状目标对应的文字图像;
在获取柱状目标的图像信息之前,还可以先获取柱状目标对应的文字图像,在实施时,目标柱状图中会设置有柱状目标的标注信息,该标准信息携带有柱状目标所映射对象的名称信息以及该对象的具体数量信息,该标注信息表现为目标柱状图中与柱状目标对应的文字图像。具体地,文字图像会设置于目标柱状图对应柱状目标纵坐标方向的上方,通过对目标柱状图进行扫描即可获取与柱状目标相对应的文字图像。
S1020、根据所述文字图像识别所述柱状目标所映射对象的名称信息,其中,所述对象属性信息包括所述名称信息。
在获取柱状目标对应的文字图像后,识别该文字图形以获取与文字图像相对应的柱状目标所映射对象的名称信息,在实施时,可以通过OCR实现图片文字识别,OCR(OpticalCharacter Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。识别到柱状目标所映射对象的名称信息后,将该名称信息添加到对象的对象属性信息中,提高对对象的对象属性信息识别和获取的精度,文字识别不需要人工的介入参与,提高数据转换的效率。
在另一个可选实施例中,请参阅图3,图3是本发明一个实施例识别文字图像的基本流程示意图。
如图3所示,步骤1020包括如下述步骤:
S1021、将所述文字图像输入至预设的文字识别模型中,其中,所述文字识别模型为训练至收敛的用于识别图像中文字的卷积神经网络模型;
在获取文字图像后,可以将该文字图像输入至文字识别模型中,由该文字识别模型进行图片文字识别,在实施时,文字识别模型为训练至收敛的用于识别图像中文字的卷积神经网络模型。
S1022、获取所述文字识别模型输出的所述对象的名称信息。
将文字图像输入至文字识别模型中后,卷积神经网络模型对该文字图像进行识别并输入文字图像中的文字,由于该文字图像是与柱状目标对应的,所以文字识别模型输出的是柱状目标所映射对象的名称信息,在本实施方式中,可以使用LSTM网络(长短期记忆人工神经网络模型,Long Short-Term Memory)作为神经网络模型。LSTM网络通过“门”(gate)来控制丢弃或者增加信息,从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构,由一个sigmoid(S型生长曲线)函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完全丢弃,1代表完全通过。训练至收敛的神经网络模型具备了能识别文字图像中文字信息的识别分类器,其中,文字识别模型包括上述的神经网络模型,该神经网络模型包括了N+1个识别分类器,N为正整数。
具体地,通过将文字图像输入到预设的文字识别模型中,得到文字图像的每个词语在识别分类器中的分类结果,其中,分类结果包括文字图像对应的文字分类和文字分类的置信度(Confidence)。
获取上述的分类结果,其中,文字分类的置信度是指文字图像经过文字识别模型进行筛选分类后,文字图像被归类到一种以上的文字分类以及得到文字图像占该文字分类的百分值。由于最终得到文字图像中词语对应的文字信息为一种,故需要将同一文字图像的各个文字分类的置信度进行比较,例如,文字图像携带的信息为“笔记本电脑”,被分类到电子设备计算机的置信度为0.95,被分类到文具笔记本的置信度为0.75。
两置信度与预设的第一阈值进行比对,当所述置信度大于预设第一阈值时,确认所述置信度所表征的文字分类结果为所述对象的名称信息。预设第一阈值一般设置为0.9到1之间的数值。通过筛选出置信度大于预设第一阈值的文字信息作为最终的文字分类结果,即确认置信度所表征的文字信息为对象的名称信息。例如,当预设第一阈值为0.9时,并且文字图像携带的信息为“钢笔”,被分类到文具的置信度为0.95,由于0.95>0.9,所以“钢笔”的情绪信息为开心。
通过将文字图像输入到预设的文字识别模型中,并获取文字识别模型输出的文字图像的文字分类的置信度,当置信度大于预设第一阈值时,确认置信度所表征的文字分类结果为对象的名称信息,从而提高了识别文字图像中文字的准确度。
在一个可选实施例中,请参阅图4,图4是本发明一个实施例重置数量值信息的基本流程示意图。
如图4所示,步骤S1020之后,还包括如下述步骤:
S1030、获取所述文字图像中表征所述对象数量的统计数值信息;
柱状目标对应的文字图像还携带有柱状目标所映射对象的具体数量信息,在实施时,可以通过OCR实现图片文字识别文字图像中的统计数值信息,从而获取柱状目标所映射对象的数量,该统计数值信息是目标柱状图中携带的,可以准确确定柱状目标所映射对象的具体数量,例如与柱状目标对应的文字图像包括“250万”字样,通过OCR识别文字图像即可知道该柱状目标对应的对象的数量为250万。
S1040、将所述统计数值信息与所述数量值信息之间的数量差值与预设的对比阈值进行比对;
获取统计数值信息后,将该统计数值信息与根据柱状目标计算得到的数量值信息进行计算,以计算出统计数值信息与数量值信息之间的数量的差值,然后将该数量差值与预设的对比阈值进行比对,其中对比阈值是系统中预设的数量值,在实施时,该对比阈值还可以由用户自己进行设置,从而满足用户的使用需求。
S1050、当所述数量差值大于所述对比阈值时,将所述数量值信息替换成所述统计数值信息。
当该数量差值大于预设的对比阈值时,将该数量值信息替换成统计数值信息,由于数量值信息所表征的对象数量是根据目标柱状图中柱状目标的柱状属性信息和该目标柱状图中的标准化信息计算得到,计算的结果可能存在误差使得数量值信息不准确,通过将统计数值信息和数量值信息之间的数量差值进行比较,当该数量差值小于比对阈值(例如2、3或者5)时,统计值信息和数量值信息之间的数量差距可以忽略不计,继续使用数量值信息与对象数量信息信息结构化转换生成结构化目标数据;而当数量差值大于比对阈值时,将数量值信息替换成统计值信息,使用统计值信息与对象数量信息信息结构化转换生成结构化目标数据。当然,还可以采用其它的方式,例如当该数量差值小于比对阈值时,将数量值信息替换成统计值信息,使用统计值信息与对象数量信息信息结构化转换生成结构化目标数据,而当数量差值大于比对阈值时,继续使用数量值信息与对象数量信息信息结构化转换生成结构化目标数据。
在一个可选实施例中,请参阅图5,图5是本发明一个实施例计算对象的数量值信息的基本流程示意图。
如图5所示,步骤1200包括如下述步骤:
S1210、获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息;
柱状目标的柱状属性中携带有高度信息,该高度信息用于表征柱状目标在目标柱状图中的高度,即柱状目标的柱状属性信息包括该柱状目标在柱状图中的高度信息,具体地,可以通过图像处理提取柱状目标的高度,在实施时,请参与图6,图6是本发明一个实施例获取柱状目标的高度信息的具体流程示意图。
如图6所示,步骤S1210包括如下述步骤:
S1211、获取所述柱状目标在所述目标柱状图中的最高点的目标纵坐标信息;
目标柱状图中的各柱状目标均成长条柱状形态,且各柱状目标在目标柱状图的横坐标方向上依次排列,而在目标柱状图的纵坐标方向上高度不一,由于柱状目标所映射对象的数量不一致,将导致柱状目标在目标柱状图中的高度也不一致,柱状目标在目标柱状图中的高度与柱状目标所映射对象的数量成正比,即对象的数量越多则柱状目标的高度越高,在实施时,可以通过图像处理技术获取目标柱状图中柱状目标的最高点的目标纵坐标信息,图像处理(image processing)是指用计算机对图像进行分析,以达到所需结果的技术,例如通过OCR或者OpenCV实现目标柱状图的图片文字识别和定位,从而获取柱状目标最高点的目标纵坐标信息。
S1212、根据所述目标纵坐标信息和所述目标柱状图的原点纵坐标信息计算出所述柱状目标的高度信息。
原点纵坐标信息是指在目标柱状图中原点的纵坐标,在实施时,目标柱状图的原点为横纵坐标的起点,一般情况下,以原点为起点向右反向延伸就是横坐标的递增反向,以原点为起点向上延伸就是纵坐标的递增方向,即原点表示为(0,0),通过将柱状目标的目标纵坐标信息和原点纵坐标信息即可计算出柱状目标的高度信息,例如柱状目标的最高点的坐标为(100,640),则该柱状目标的目标纵坐标信息为640,原点纵坐标信息为0,即该柱状目标的高度为640。通过根据坐标信息计算柱状目标的高度,能有效提高获取柱状目标所映射对象的数量的精度。
S1220、根据所述高度信息和所述标准化信息计算所述柱状目标所映射的对象的数量值信息。
在获取柱状目标的高度信息后,即可根据该高度信息和目标柱状图中预设的标准化信息计算出柱状目标所映射对象的数量值信息,在实施时,标准信息是柱状图中预设的用于衡量柱状目标中对象数量的标准,以目标柱状图表示年级学生考试成绩为例,在目标柱状图的纵坐标方向上分为10个标准单位的高度,每个标准单位的分数为10分且从下往上依次递增,即最高的为100分而最低的为0分,标准单位的分数是目标柱状图中预设的标准化信息,则根据柱状图中各个柱状目标的图像信息可以学生的成绩,例如第一个学生对应的柱状目标的高度为9.5个标准单位的高度,第二个学生对应的柱状目标的高度为9.8个标准单位的高度,系统获取第一个学生和第二个学生对应的柱状在目标柱状图中的高度信息,然后根据高度信息和标准化信息分别计算出第一个学生的成绩和第二个学生的成绩,然后将第一个学生和第二个学生的对象属性信息和数量值信息进行结构化转换以生成结构化目标数据,即将第一个学生和第二个学生的名字分别与自己的成绩进行结构化处理生成键值对形式的目标结构化数据,例如第一个学生和第二个学生的名字分别为张三和李四,则生成的目标结果化数据为:张三-95分,李四-98分,生成的结构化目标数据能够存储与结构化数据库中,方便直接读取和获取柱状图中的具体数据。
为解决上述技术问题,本发明实施例还提供一种柱状图数据转换控制装置。
具体请参阅图7,图7为本实施例柱状图数据转换控制装置基本结构示意图。
如图7所示,一种柱状图数据转换控制装置,包括:第一获取模块2100、第一处理模块2200和第一执行模块2300,其中,第一获取模块2100用于获取目标柱状图中至少一个柱状目标的图像信息,其中,所述图像信息包括所述柱状目标的柱状属性信息以及所述柱状目标所映射对象的对象属性信息;第一处理模块2200用于根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息;第一执行模块2300用于将所述对象属性信息以及所述数量值信息进行结构化转换生成键值对形式的结构化目标数据。
本实施例通过获取目标柱状图中的多个柱状目标的图像信息,柱状目标是目标柱状图中的柱状成员,该图像信息中包括柱状目标的柱状属性信息和柱状目标所映射对象的对象属性信息,根据该柱状目标的柱状属性信息和目标柱状图中的标准化信息计算出柱状目标所映射的对象的数量值信息,然后根据将该对象的对象属性信息和数量值信息进行结构化处理,从而转换成键值对形式的结构化目标数据,进而可以存储于结构化数据库中,方便数据的读取,且减少数据占用的空间。
在一些实施方式中,柱状图数据转换控制装置还包括:第二获取模块和第二执行模块,其中,第二获取模块用于获取所述目标柱状图中与所述柱状目标对应的文字图像;第二执行模块用于根据所述文字图像识别所述柱状目标所映射对象的名称信息,其中,所述对象属性信息包括所述名称信息。
在一些实施方式中,柱状图数据转换控制装置还包括:第一执行子模块和第一获取子模块,其中,第一执行子模块用于将所述文字图像输入至预设的文字识别模型中,其中,所述文字识别模型为训练至收敛的用于识别图像中文字的卷积神经网络模型;第一获取子模块用于获取所述文字识别模型输出的所述对象的名称信息。
在一些实施方式中,柱状图数据转换控制装置还包括:第三获取模块、比对模块和第三执行模块,其中,第三获取模块用于获取所述文字图像中表征所述对象数量的统计数值信息;比对模块用于将所述统计数值信息与所述数量值信息之间的数量差值与预设的对比阈值进行比对;第三执行模块用于当所述数量差值大于所述对比阈值时,将所述数量值信息替换成所述统计数值信息。
在一些实施方式中,柱状图数据转换控制装置还包括:第二获取子模块和第二执行子模块,其中,第二获取子模块用于获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息;第二执行子模块用于根据所述高度信息和所述标准化信息计算所述柱状目标所映射的对象的数量值信息。
在一些实施方式中,柱状图数据转换控制装置还包括:第三获取子模块和第三执行子模块,其中,第三获取子模块用于获取所述柱状目标在所述目标柱状图中的最高点的目标纵坐标信息;第三执行子模块用于根据所述目标纵坐标信息和所述目标柱状图的原点纵坐标信息计算出所述柱状目标的高度信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
如图8所示,计算机设备的内部结构示意图。如图8所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种柱状图数据转换控制方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种柱状图数据转换控制方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中第一获取模块2100、第一处理模块2200和第一执行模块2300,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有柱状图数据转换控制装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机通过获取目标柱状图中的多个柱状目标的图像信息,柱状目标是目标柱状图中的柱状成员,该图像信息中包括柱状目标的柱状属性信息和柱状目标所映射对象的对象属性信息,根据该柱状目标的柱状属性信息和目标柱状图中的标准化信息计算出柱状目标所映射的对象的数量值信息,然后根据将该对象的对象属性信息和数量值信息进行结构化处理,从而转换成键值对形式的结构化目标数据,进而可以存储于结构化数据库中,方便数据的读取,且减少数据占用的空间。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述柱状图数据转换控制方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种柱状图数据转换控制方法,其特征在于,包括下述步骤:
获取目标柱状图中至少一个柱状目标的图像信息,其中,所述图像信息包括所述柱状目标的柱状属性信息以及所述柱状目标所映射对象的对象属性信息;
根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息;
将所述对象属性信息以及所述数量值信息进行结构化转换生成键值对形式的结构化目标数据。
2.根据权利要求1所述的柱状图数据转换控制方法,其特征在于,所述获取目标柱状图中至少一个柱状目标的图像信息的步骤之前,还包括如下述步骤:
获取所述目标柱状图中与所述柱状目标对应的文字图像;
根据所述文字图像识别所述柱状目标所映射对象的名称信息,其中,所述对象属性信息包括所述名称信息。
3.根据权利要求2所述的柱状图数据转换控制方法,其特征在于,所述根据所述文字图像识别所述柱状目标所映射的对象的名称信息的步骤,包括如下述步骤:
将所述文字图像输入至预设的文字识别模型中,其中,所述文字识别模型为训练至收敛的用于识别图像中文字的卷积神经网络模型;
获取所述文字识别模型输出的所述对象的名称信息。
4.根据权利要求2所述的柱状图数据转换控制方法,其特征在于,所述根据所述文字图像识别所述柱状目标所映射的对象的名称信息的步骤之后,还包括如下述步骤:
获取所述文字图像中表征所述对象数量的统计数值信息;
将所述统计数值信息与所述数量值信息之间的数量差值与预设的对比阈值进行比对;
当所述数量差值大于所述对比阈值时,将所述数量值信息替换成所述统计数值信息。
5.根据权利要求1所述的柱状图数据转换控制方法,其特征在于,所述根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息的步骤,包括如下述步骤:
获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息;
根据所述高度信息和所述标准化信息计算所述柱状目标所映射的对象的数量值信息。
6.根据权利要求5所述的柱状图数据转换控制方法,其特征在于,所述获取所述柱状属性信息中表征所述柱状目标在所述目标柱状图中高度的高度信息的步骤,包括如下述步骤:
获取所述柱状目标在所述目标柱状图中的最高点的目标纵坐标信息;
根据所述目标纵坐标信息和所述目标柱状图的原点纵坐标信息计算出所述柱状目标的高度信息。
7.一种柱状图数据转换控制装置,其特征在于,包括:
第一获取模块,用于获取目标柱状图中至少一个柱状目标的图像信息,其中,所述图像信息包括所述柱状目标的柱状属性信息以及所述柱状目标所映射对象的对象属性信息;
第一处理模块,用于根据所述目标柱状图中预设的标准化信息和所述柱状属性信息进行计算生成所述对象的数量值信息;
第一执行模块,用于将所述对象属性信息以及所述数量值信息进行结构化转换生成键值对形式的结构化目标数据。
8.根据权利要求7所述的一种柱状图数据转换控制装置,其特征在于,还包括:
第二获取模块,用于获取所述目标柱状图中与所述柱状目标对应的文字图像;
第二执行模块,用于根据所述文字图像识别所述柱状目标所映射对象的名称信息,其中,所述对象属性信息包括所述名称信息。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述柱状图数据转换控制方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述柱状图数据转换控制方法的步骤。
CN201910079912.5A 2019-01-28 2019-01-28 柱状图数据转换控制方法、装置、计算机设备及存储介质 Pending CN109840278A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910079912.5A CN109840278A (zh) 2019-01-28 2019-01-28 柱状图数据转换控制方法、装置、计算机设备及存储介质
PCT/CN2019/117470 WO2020155757A1 (zh) 2019-01-28 2019-11-12 柱状图数据转换控制方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910079912.5A CN109840278A (zh) 2019-01-28 2019-01-28 柱状图数据转换控制方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109840278A true CN109840278A (zh) 2019-06-04

Family

ID=66884234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910079912.5A Pending CN109840278A (zh) 2019-01-28 2019-01-28 柱状图数据转换控制方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109840278A (zh)
WO (1) WO2020155757A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210455A (zh) * 2019-06-18 2019-09-06 石家庄捷弘科技有限公司 一种打印内容格式化提取方法
CN110688363A (zh) * 2019-09-02 2020-01-14 中国平安人寿保险股份有限公司 一种数据的标准化处理方法及系统、电子设备及存储介质
CN111143544A (zh) * 2019-12-23 2020-05-12 中南大学 一种基于神经网络的柱形图信息提取方法及装置
WO2020155757A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN112101237A (zh) * 2020-09-17 2020-12-18 新华智云科技有限公司 一种柱状图数据提取和转化方法
CN112269828A (zh) * 2020-11-18 2021-01-26 网易(杭州)网络有限公司 数据生成方法、装置和电子设备
CN114143446A (zh) * 2021-10-20 2022-03-04 深圳航天智慧城市系统技术研究院有限公司 基于边缘计算的柱状图识别方法、系统、存储介质及设备
CN115205859A (zh) * 2022-09-13 2022-10-18 通联数据股份公司 用于将位图解析为结构化数据的方法、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN107578457A (zh) * 2017-08-21 2018-01-12 中云开源数据技术(上海)有限公司 一种套叠柱状图的可视化系统及其显示方法
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
US20180336405A1 (en) * 2017-05-17 2018-11-22 Tab2Ex, Llc Method of digitizing and extracting meaning from graphic objects

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
CN108446717A (zh) * 2018-02-07 2018-08-24 苏州工业大数据创新中心有限公司 一种基于图像识别的机台状态采集方法及系统
CN108399386B (zh) * 2018-02-26 2022-02-08 阿博茨德(北京)科技有限公司 饼图中的信息提取方法及装置
CN109840278A (zh) * 2019-01-28 2019-06-04 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
US20180336405A1 (en) * 2017-05-17 2018-11-22 Tab2Ex, Llc Method of digitizing and extracting meaning from graphic objects
CN107578457A (zh) * 2017-08-21 2018-01-12 中云开源数据技术(上海)有限公司 一种套叠柱状图的可视化系统及其显示方法
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155757A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN110210455A (zh) * 2019-06-18 2019-09-06 石家庄捷弘科技有限公司 一种打印内容格式化提取方法
CN110688363A (zh) * 2019-09-02 2020-01-14 中国平安人寿保险股份有限公司 一种数据的标准化处理方法及系统、电子设备及存储介质
CN110688363B (zh) * 2019-09-02 2023-07-21 中国平安人寿保险股份有限公司 一种数据的标准化处理方法及系统、电子设备及存储介质
CN111143544A (zh) * 2019-12-23 2020-05-12 中南大学 一种基于神经网络的柱形图信息提取方法及装置
CN111143544B (zh) * 2019-12-23 2023-06-16 中南大学 一种基于神经网络的柱形图信息提取方法及装置
CN112101237A (zh) * 2020-09-17 2020-12-18 新华智云科技有限公司 一种柱状图数据提取和转化方法
CN112269828A (zh) * 2020-11-18 2021-01-26 网易(杭州)网络有限公司 数据生成方法、装置和电子设备
CN114143446A (zh) * 2021-10-20 2022-03-04 深圳航天智慧城市系统技术研究院有限公司 基于边缘计算的柱状图识别方法、系统、存储介质及设备
CN115205859A (zh) * 2022-09-13 2022-10-18 通联数据股份公司 用于将位图解析为结构化数据的方法、设备和介质

Also Published As

Publication number Publication date
WO2020155757A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
CN109840278A (zh) 柱状图数据转换控制方法、装置、计算机设备及存储介质
Gardener Statistics for ecologists using R and Excel: data collection, exploration, analysis and presentation
EP3570208A1 (en) Two-dimensional document processing
Cook et al. An introduction to regression graphics
CN107169485B (zh) 一种数学公式识别方法和装置
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
US20230234235A1 (en) Method for generating a handwriting vector
CN109919037B (zh) 一种文本定位方法及装置、文本识别方法及装置
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN103927535B (zh) 一种汉字书写识别方法及装置
CN109902285A (zh) 语料分类方法、装置、计算机设备及存储介质
CN113807158A (zh) 一种pdf内容提取方法、装置及设备
CN112445849B (zh) 一种报表分析方法及装置
CN106355588A (zh) 一种基于核方法的高光谱图像分割方法
US20230419706A1 (en) Method to identify and extract tables from semi-structured documents
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
CN115964492A (zh) 文本知识抽取方法、装置、电子设备和可读存储介质
CN113158632B (zh) Cad图纸的表格重建方法和计算机可读存储介质
CN110533035B (zh) 基于文本匹配的学生作业页码识别方法
CN110147813B (zh) 一种用户画像构建方法、装置、存储介质和服务器
Payne et al. A guide to multivariate analysis in Genstat®
Austin et al. Sampling strategies costed by simulation
Agustin Implementation of Generative Pre-Trained Transformer 3 Classify-Text in Determining Thesis Supervisor
CN112529084B (zh) 一种基于滑坡剖面图像分类模型的相似滑坡推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination