具体实施方式
目前,出现在各类文档或网页中的图表(Chart)的类型有很多种,例如:条形图、柱状图、折线图、饼图等。虽然人们可以通过对图表进行视觉解码来获取信息,但是计算机却不能直接获取到图表中蕴含的信息,这就导致了大量图表中的有价值信息不能被应用到机器学习领域中。如果没有一种有效的方法对这些图表进行解码,以提取出图表中蕴含的有效信息并将其存储,这将是一大损失。
图1示出了一示例性实施例提供的一种获取图表特征信息的方法的流程图,该方法可以应用于各类电子设备(如服务器、用户设备UE、终端设备等)上。如图1所示,在一实施例中,该方法可包括如下步骤101至步骤107,其中:
在步骤101中,获得待识别图表。
其中,待识别图表可为静态图片(如JPG格式)或动态图片。当然,如果为动态图片,则可以截图方式获得静态图片并作为输入图片。在实际的应用场景中,可以预先筛选出内容为图表的若干图片,这些图片可以来源于网站或各类文档,并将所筛选出的图片作为需要输入的待识别图表。步骤101获得待识别图表的方式很多,包括:从数据库中读取待识别图表,或从网页中截取待识别图表,或接收用户上传的待识别图表等,本文不一一列举。
在步骤103中,识别所述待识别图表中的文本片段。
该步骤103可以通过各类图像识别技术来实现,例如:光学字符识别(OpticalCharacter Recognition,OCR)、自然场景文字识别(Scene Text Recognition,STR)等,由于识别图像中包含的字符属于本领域常规技术,故对此本文不再予以赘述。参照图2A和图2B所示,可以识别出图2A所示的待识别图表中所包含的各文本片段为图2B中方框内的内容。
在步骤105中,根据所述文本片段所处的位置,确定所述文本片段所属的图表角色。
在本申请实施例中,所述待识别图表角色可以包括但不限于对象的标题和对象的标签数据,以笛卡尔坐标系的图表为例,所述对象可以包括但不限于X坐标轴(axis)、、Y坐标轴、图例(legend)中的至少一者。
在一实施例中,在步骤105之前,可以预定义一种标准图表(如图2C所示),其中该标准图表中可定义了各个图表角色与其位置的对应关系,如:对于在Y坐标轴左侧的一定区域内出现的文本,其图表角色为“Y坐标轴的标题和标签数据”,同样地,可针对Y坐标轴的标题和标签数据分别定义其所处的位置范围。
以图2A所示的待识别图表为例,基于预定义的标准图表,可以确定出文本片段和图表角色的对应关系如下:
文本片段 |
图表角色 |
Number of Records |
Y轴的标题 |
Y轴左侧的0、10、20、30、40 |
Y轴的标签数据 |
BIN(yield) |
X轴的标题 |
X轴下方的20、40、60 |
X轴的标签数据 |
Site |
图例的标题 |
Crookston、Duluth、Rapids、Morris、University、Waseca |
图例的标签数据 |
在步骤107中,根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。
其中,所述待识别图表特征包括但不限于:图表使用的几何标记类型、与各图表角色对应的字段名、与各字段名对应的数值类型中的至少一者。
对本文涉及到的几个术语定义如下:
图形语法(The Grammar of Graphics):
Leland Wilkinson创建了一套用来描述所有统计图形深层特性的语法规则,该语法回答了『什么是统计图形』这一问题。其中,图形的构造过程可分为三个阶段:规范定义、组装和显示,其中规范定义是整个语法的基础,描述了不同图形对象间的转变和最终图形显示映射。通过图形语法,一张图表就是从数据(Data)到几何对象(geometry)的图形属性(attributes)的映射,此外,图形中还可能包含数据的统计变换(statistic),最后将图形绘制在某个特定的坐标系(coordinate)中。
视觉编码:
将数据信息映射成可视化元素的技术。类似于数据包含属性和值,视觉编码也由两部分组成:标记(或称为图形元素)和视觉通道。其中,标记(对应于数据的属性)用于直观的代表数据的分类,通常展示为几何图形元素,例如:点、线、面、体。视觉通道(对应于数据的值)用于表现数据的定量信息,例如:标记的位置、大小、形状、方向、色调、饱和度、亮度等。
在一实施例中,该步骤107可以具体包括:
步骤1071:利用图像识别技术,识别所述待识别图表中的图表所使用的几何标记类型。其中,所述几何标记类型可以包括但不限于点(Point)、线(Line)、面(Area)、体中的至少一者。对于图2A所示的待识别图表而言,其使用的几何标记类型为面(Area)。
步骤1073:将图表角色为标题的文本片段的内容确定为该图表角色对应的字段名。
在图形语法中,“position”部分用于确定由数据中的哪几个字段来确定数据在平面坐标系的位置。对于图2A所示的待识别图表而言,通过识别x坐标轴的标题和Y坐标轴的标题,可推断数据中有“BIN(yield)”和“Number of Recrods”这两个字段。
步骤1075:根据与所述字段名对应的并且图表角色为标签数据的文本片段的内容,确定与该字段名对应的数值类型。
对于图2A所示的待识别图表而言,基于预定义的图形语法以及图表中的文本内容,可以确定出X坐标轴及Y坐标轴的标签数据的数值类型为:quantitative,图例的标签数据的数值类型为:category。
步骤1077:基于预定义的图形语法,生成包含各图表特征的文本文件。
在一实施例中,文本文件可以是JSON((JavaScript Object Notation,JS对象标记)格式的。
对于图2A所示的待识别图表而言,最终生成的JSON格式文件的内容示例如下:
当然,本领域普通技术人员可以想到的是,生成上述JSON格式文件的依据并不限于Leland Wilkinson创建的图形语法。
另外,JSON文件中包含的图表特征并不限于上述内容,根据实际需求,还可以提取出图表中包含的各个点的坐标信息。
在一实施例中,在步骤101之后,在步骤103之前,所述方法还可包括:识别所述待识别图表是否属于设定图表类型。其中,如果所述待识别图表属于设定图表类型,则进入步骤103。其中,为了降低识别成本,提高信息提取效率,可以对待识别图表的类型进行限制。例如,设定图表类型可以为:在笛卡尔坐标系绘制的图表且不属于混合图表。当然,本申请实施例中,可以被识别的设定图表类型并不作限制,可以为一种或多种,并且,对于多种类型的图表,可以分别对每一种类型的图表预定义一种标准图表,以便于根据对应的标准图表,识别出图表中各文本片段所属的图表角色。
在以上实施例所公开的方法中,通过获得待识别图表,并识别图表中的文本片段,然后确定出各个文本片段所属的图表角色,最终依据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。通过上述过程,可以将图片形式展示的图表中包含的图表特征提取出来并生成一个包含这些图表特征的文本文件,因为该文本文件可以被计算机读取到其内包含的数据信息,故可以被应用到机器学习领域中。本申请实施例解决了图表中蕴含的信息难以被计算机提取并运用的问题。
与上述方法相对应的,本文还提供了一种获取图表特征信息的装置。如图3所示,在一实施例中,一种获取图表特征信息的装置200,可以包括:图片获得单元201、文本识别单元202、角色确定单元203以及文件生成单元204;其中:
所述图片获得单元201可被配置为:获得待识别图表;
所述文本识别单元202可被配置为:识别所述待识别图表中的文本片段;
所述角色确定单元203可被配置为:根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;
所述文件生成单元204可被配置为:根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。
在一实施例中,所述角色确定单元203可被配置为:
根据预定义的标准图表以及所述文本片段所处的位置,确定与所述文本片段对应的图表角色,所述标准图表定义图表角色和位置的对应关系。
在一实施例中,所述文件生成单元204可以具体包括:标记类型识别单元、字段名确定单元以及数值类型确定单元,其中;
所述标记类型识别单元利用图像识别技术,识别所述待识别图表中的图表所使用的几何标记类型;
所述字段名确定单元将图表角色为标题的文本片段的内容确定为该图表角色对应的字段名;
所述数值类型确定单元根据与所述字段名对应的并且图表角色为标签数据的文本片段的内容,确定与该字段名对应的数值类型。
在一实施例中,所述文件生成单元204可被配置为:
基于预定义的图形语法,生成包含各图表特征的文本文件。
在一实施例中,所述装置200还可包括:
图表类型识别单元,识别所述待识别图表是否属于设定图表类型;
则所述文本识别单元202可被配置为:
如果所述待识别图表属于设定图表类型,则识别所述待识别图表中的文本片段。
如图4所示,本说明书一个或多个实施例提供了一种电子设备(如:服务器或用户设备UE),该电子设备可以包括处理器、内部总线、网络接口、存储器(包括内存以及非易失性存储器),当然还可能包括其他业务所需要的硬件。处理器可为中央处理单元(CPU)、处理单元、处理电路、处理器、专用集成电路(ASIC)、微处理器或可执行指令的其他处理逻辑中的一个或多个实例。处理器从非易失性存储器中读取对应的程序到内存中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在一种实施例中,处理器可以被配置为:
获得待识别图表;
识别所述待识别图表中的文本片段;
根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;
根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。
在一种实施例中,还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
获得待识别图表;
识别所述待识别图表中的文本片段;
根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;
根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同/相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例、装置实施例、存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书一个或多个实施例的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。