CN115587098A - 一种智能识别图表数据的方法及系统 - Google Patents

一种智能识别图表数据的方法及系统 Download PDF

Info

Publication number
CN115587098A
CN115587098A CN202211270048.5A CN202211270048A CN115587098A CN 115587098 A CN115587098 A CN 115587098A CN 202211270048 A CN202211270048 A CN 202211270048A CN 115587098 A CN115587098 A CN 115587098A
Authority
CN
China
Prior art keywords
data
column
label
columns
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211270048.5A
Other languages
English (en)
Inventor
武宝杰
季勇
石贇
张顺晨
黄国珉
赵璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ouye Finance Information Service Co ltd
Original Assignee
Shanghai Ouye Finance Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ouye Finance Information Service Co ltd filed Critical Shanghai Ouye Finance Information Service Co ltd
Priority to CN202211270048.5A priority Critical patent/CN115587098A/zh
Publication of CN115587098A publication Critical patent/CN115587098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种智能识别图表数据的方法及系统,涉及智能识别技术领域,方法包括:获取图表数据;对图表数据进行转化,得到关系型数据;根据关系型数据得到标签列的数量和数据列的数量;根据标签列的数量、数据列的数量和关系型数据,得到m标签列n数据列的数据报表;对m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表;根据设定的标签科目间勾稽关系公式,对标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;对错误数据进行修正,得到修正后的数据报表;对修正后的数据报表进行展示。本发明能提高数据报表数据的采集工作的效率。

Description

一种智能识别图表数据的方法及系统
技术领域
本发明涉及智能识别技术领域,特别是涉及一种智能识别图表数据的方法及系统。
背景技术
当前,数据报表的数据分析基本上还是基于人工阅读审核的方式,效率低,无法实现审批自动化。企业的信审部分,传统的人工审核方式已经严重阻碍了企业信审的效率和业务开展。其实,信审的依据是数据报表上的核心数据,只要提高数据报表数据的采集工作的效率,企业信审的效率就会大幅提高,基于此,如何提高数据报表数据的采集工作的效率,成为本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种智能识别图表数据的方法及系统,从而提高数据报表数据的采集工作的效率。
为实现上述目的,本发明提供了如下方案:
一种智能识别图表数据的方法,所述方法包括:
获取图表数据;所述图表数据包括PNG、JPG、JPEG、BMP、TIFF类型的图片数据以及WORD、PDF、EXCEL类型文档的数据报表;
对所述图表数据进行转化,得到关系型数据;
根据所述关系型数据得到标签列的数量和数据列的数量;
根据所述标签列的数量、所述数据列的数量和所述关系型数据,得到m标签列n数据列的数据报表;其中,m表示所述标签列的数量;n表示所述数据列的数量;所述m标签列n数据列的数据报表中包括以标签和数据表示的所述关系型数据;
对所述m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表;
根据设定的标签科目间勾稽关系公式,对所述标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;所述错误数据的核算结果不符合所述设定的标签科目间勾稽关系公式;
对所述错误数据进行修正,得到修正后的数据报表;
对所述修正后的数据报表进行展示。
可选地,所述对所述图表数据进行转化,得到关系型数据,具体包括:
利用百度图像处理技术对所述图表数据进行转化,得到关系型数据。
可选地,所述根据所述标签列的数量、所述数据列的数量和所述关系型数据,得到m标签列n数据列的数据报表,具体包括:
在数据报表模板库中匹配m标签列n数据列的数据报表模板;
若匹配到m标签列n数据列的数据报表模板,则以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表;
若未匹配到m标签列n数据列的数据报表模板,则在所述数据报表模板库中添加m标签列n数据列的数据报表模板,并以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表。
可选地,所述对所述错误数据进行修正,得到修正后的数据报表,之后还包括:
利用图形定位技术,根据科目所在行数和列数将所述修正后的数据报表中的数据定位到所述图表数据中识别位置。
本发明还提供了如下方案:
一种智能识别图表数据的系统,所述系统包括:
图表数据获取模块,用于获取图表数据;所述图表数据包括PNG、JPG、JPEG、BMP、TIFF类型的图片数据以及WORD、PDF、EXCEL类型文档的数据报表;
图表数据转化模块,用于对所述图表数据进行转化,得到关系型数据;
标签列和数据列数量得到模块,用于根据所述关系型数据得到标签列的数量和数据列的数量;
m标签列n数据列数据报表得到模块,用于根据所述标签列的数量、所述数据列的数量和所述关系型数据,得到m标签列n数据列的数据报表;其中,m表示所述标签列的数量;n表示所述数据列的数量;所述m标签列n数据列的数据报表中包括以标签和数据表示的所述关系型数据;
标签合并模块,用于对所述m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表;
标签科目间勾稽关系核算模块,用于根据设定的标签科目间勾稽关系公式,对所述标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;所述错误数据的核算结果不符合所述设定的标签科目间勾稽关系公式;
错误数据修正模块,用于对所述错误数据进行修正,得到修正后的数据报表;
修正后的数据报表展示模块,用于对所述修正后的数据报表进行展示。
可选地,所述图表数据转化模块具体包括:
图表数据转化单元,用于利用百度图像处理技术对所述图表数据进行转化,得到关系型数据。
可选地,所述m标签列n数据列数据报表得到模块具体包括:
数据报表模板匹配单元,用于在数据报表模板库中匹配m标签列n数据列的数据报表模板;
第一关系型数据表示单元,用于若匹配到m标签列n数据列的数据报表模板,则以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表;
第二关系型数据表示单元,用于若未匹配到m标签列n数据列的数据报表模板,则在所述数据报表模板库中添加m标签列n数据列的数据报表模板,并以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表。
可选地,所述系统还包括:
数据定位模块,用于利用图形定位技术,根据科目所在行数和列数将所述修正后的数据报表中的数据定位到所述图表数据中识别位置。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开的智能识别图表数据的方法及系统,提供了一种自动识别图表数据的流程,通过对图表数据进行转化,得到关系型数据,根据关系型数据得到标签列的数量和数据列的数量,根据标签列的数量、数据列的数量和关系型数据,得到以标签和数据表示的关系型数据构成的m标签列n数据列的数据报表,对m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表,根据设定的标签科目间勾稽关系公式,对标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到核算结果不符合设定的标签科目间勾稽关系公式的错误数据,对错误数据进行修正,得到修正后的数据报表,最后对修正后的数据报表进行展示,实现了自动采集数据报表的数据,相比于人工采集显著提高了数据报表数据的采集工作的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明智能识别图表数据的方法实施例的流程图;
图2为本发明智能识别图表数据的系统实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种智能识别图表数据的方法及系统,从而提高数据报表数据的采集工作的效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明智能识别图表数据的方法实施例的流程图。参见图1,该智能识别图表数据的方法包括:
步骤101:获取图表数据;图表数据包括PNG、JPG、JPEG、BMP、TIFF类型的图片数据以及WORD、PDF、EXCEL类型文档的数据报表。
步骤102:对图表数据进行转化,得到关系型数据。
该步骤102具体包括:
利用百度图像处理技术对图表数据进行转化,得到关系型数据。
步骤103:根据关系型数据得到标签列的数量和数据列的数量。
步骤104:根据标签列的数量、数据列的数量和关系型数据,得到m标签列n数据列的数据报表;其中,m表示标签列的数量;n表示数据列的数量;m标签列n数据列的数据报表中包括以标签和数据表示的关系型数据。
该步骤104具体包括:
在数据报表模板库中匹配m标签列n数据列的数据报表模板。
若匹配到m标签列n数据列的数据报表模板,则以m标签列n数据列的数据报表模板的形式表示关系型数据,得到m标签列n数据列的数据报表。
若未匹配到m标签列n数据列的数据报表模板,则在数据报表模板库中添加m标签列n数据列的数据报表模板,并以m标签列n数据列的数据报表模板的形式表示关系型数据,得到m标签列n数据列的数据报表。
步骤105:对m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表。
步骤106:根据设定的标签科目间勾稽关系公式,对标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;错误数据的核算结果不符合设定的标签科目间勾稽关系公式。
步骤107:对错误数据进行修正,得到修正后的数据报表。
该步骤107之后还包括:
利用图形定位技术,根据科目所在行数和列数将修正后的数据报表中的数据定位到图表数据中识别位置。
步骤108:对修正后的数据报表进行展示。
下面以一个具体实施例说明本发明的技术方案:
本发明智能识别图表数据的方法为一种新自动识别数据报表技术,能够帮助企业、税务、审计等提高效率,构建自动化的信审系统。本发明智能识别图表数据的方法方案具体如下:
步骤1:多格式支持:可支持PNG、JPG、JPEG、BMP、TIFF等各种类型的图片数据,以及WORD,PDF,EXCEL等不同类型文档的数据报表,智能识别图表数据的方法区分类型,并对不同格式的报表进行识别,用户只需要将文件导入,通过百度图像处理技术手段,将图像(影像)上的文字、表格、图像转化为具体数据(关系型数据)存入数据库,通过计算机程序,实现数据采集。该步骤1利用百度识别数据并存储数据,数据形式为关系型数据。
步骤2:模板匹配:不定期完善报表模板,以得到包括有不定期完善的报表模板的数据报表模板库。针对更新细节和行业不同导致的报表差异,智能识别图表数据的方法会为同类型的上传文件(使用者上次的待识别文件)自动匹配模板并同时支持页面自定义模板模型。例如:123数据报表(即1标签列23数据列的数据报表),134数据报表(即1标签列34数据列的数据报表),134578数据报表(即1标签列34578数据列的数据报表)等等,也支持手动更换模板即录入时精确选择标签列与数据列,并指定图表列数。当实施成功后加入模板类型。其中,模板匹配即根据用户选择的类型取数据库(数据报表模板库)中的模板类型中相应模板类型匹配。模板匹配的主要作用是用于对识别的数据结果按照模板规范的标签与数值的关系和具体展现位置方便定位数据区域以及科目区域位置。
步骤3:识别规则完善:智能识别图表数据的方法支持手动更改标签关系和标签合并,对没有的标签规则可以生成新的标签匹配规则,例如不同的需求可能需要的数据不同或者某个数据名称不同可以添加映射到选定模板,后台审核后会自动按照会计准则填入公司保存的报表模板,下次遇见同样的情况可以自动完成映射,当下次遇见同样的情况,便可以直接进行映射匹配。其中,标签合并即A标签和B标签拥有相同的数据识别。标签匹配规则即A标签在精确匹配的同时可配置多种模糊匹配方案,例如B、C、D等标签识别出来后可按A标签处理。该步骤3主要处理数据归属问题,在步骤1中的数据通过标签与数据的对应关系获取数据具体意义,同时在使用的过程中可以完善标签定义规则,达到多标签同属定义,多标签模糊同属定义。
步骤4:试算平衡误差提醒:与传统图像识别软件不同,智能数据报表识别方法(智能识别图表数据的方法)基于数据做了深度优化,可精确到每一个数值,将每一个数据识别为对应的标签科目,并以识别结果数据进行标签科目间勾稽关系的辅助核算,若核算结果不符合公式(设定的标签科目间勾稽关系公式),例如A=B+C/D,会提示业务人员进行人工核验,可有效确保数据的准确性。例如:配平公式,若故意改错一处识别结果,那么这一部分不能配平的数据就会有特殊提示,帮助快速检查修改。在大量表格需要识别录入的情况下,这个功能相当实用。单击识别结果行可以查看对应区域的原图(图表数据),方便进行结果比对。另外,识别平台还具有自动配平功能,不平区域会有智能提醒。该步骤4的作用是对步骤1的结果进行自定义公式计算获取想要的验证结果,并根据验证结果确保数据识别的正确性,并达到可以快速定位识别有误的位置,从而实现对错误数据进行修正,得到修正后的数据报表。
步骤5:科目匹配原图定位:支持数据在原图定位对照,点击数据(即已经经过步骤3处理过的数据,已经通过标签关系确保了数据具体意义)即可定位到原图中识别位置,例如:数据或者字段可以原图定位并居中显示等,重新配平区域还会有智能提醒,方便校对审阅。这对操作人员来说是非常友好的设定。点击数据采用的是图形定位技术,根据科目所在行数和列数定位数据。根据数字对应的科目名称定位到具体位置。
步骤6:标准化输出:对识别结果,即最终经过步骤3、4和5处理完之后的数据集合(经过了模板处理、标签归属确认、智能识别校验一些操作后的最终数据)支持Excel文件导出,从而实现对修正后的数据报表进行展示。原图定位对照:支持数据在原图定位对照,点击数据即可定位到原图相应位置,方便校对。手动录入:对识别失败的个别数据支持手动录入功能。对识别结果输出方式包括报表展示、页面展示等等。
步骤7:模板设置:展示已有的模板列表并对选中模板进行编辑及一些规则的添加、识别历史记录展示、对已经识别的数据报表(输出结果)记录进行条目展示,不断完善模板,使该技术得到更多的使用场景。该步骤7的主要任务不再是针对该次识别结果,该步骤7主要的作用是记录本次使用的模板规则,完善模板种类,完善标签定义。
本发明智能识别图表数据的方法可以利用高效的数据处理能力分析指定报表的数据自动出具相关分析数据图表,并可以实现多维分析,动态灵活设置映射关系,减少人工成本,提升公司管理效率。本发明最终呈现方式为:在使用过程中不断的完善模板库,并定义标签关系和标签合并功能。智能识别结果后可在页面以数据表格的形式展示识别结果。
本发明智能识别图表数据的方法提供了光学字符识别技术,即通过图像处理技术手段,将图片上的文字、表格、图像转化为电子版的数据,通过计算机程序,快速实现数据信息的采集。数据报表中存在大量的数据需要手工录入,识别数据报表技术将极大提高数据采集的效率和准确度。
图2为本发明智能识别图表数据的系统实施例的结构图。参见图2,该智能识别图表数据的系统包括:
图表数据获取模块201,用于获取图表数据;图表数据包括PNG、JPG、JPEG、BMP、TIFF类型的图片数据以及WORD、PDF、EXCEL类型文档的数据报表。
图表数据转化模块202,用于对图表数据进行转化,得到关系型数据。
该图表数据转化模块202具体包括:
图表数据转化单元,用于利用百度图像处理技术对图表数据进行转化,得到关系型数据。
标签列和数据列数量得到模块203,用于根据关系型数据得到标签列的数量和数据列的数量。
m标签列n数据列数据报表得到模块204,用于根据标签列的数量、数据列的数量和关系型数据,得到m标签列n数据列的数据报表;其中,m表示标签列的数量;n表示数据列的数量;m标签列n数据列的数据报表中包括以标签和数据表示的关系型数据。
该m标签列n数据列数据报表得到模块204具体包括:
数据报表模板匹配单元,用于在数据报表模板库中匹配m标签列n数据列的数据报表模板。
第一关系型数据表示单元,用于若匹配到m标签列n数据列的数据报表模板,则以m标签列n数据列的数据报表模板的形式表示关系型数据,得到m标签列n数据列的数据报表。
第二关系型数据表示单元,用于若未匹配到m标签列n数据列的数据报表模板,则在数据报表模板库中添加m标签列n数据列的数据报表模板,并以m标签列n数据列的数据报表模板的形式表示关系型数据,得到m标签列n数据列的数据报表。
标签合并模块205,用于对m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表。
标签科目间勾稽关系核算模块206,用于根据设定的标签科目间勾稽关系公式,对标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;错误数据的核算结果不符合设定的标签科目间勾稽关系公式。
错误数据修正模块207,用于对错误数据进行修正,得到修正后的数据报表。
修正后的数据报表展示模块208,用于对修正后的数据报表进行展示。
具体的,该智能识别图表数据的系统还包括:
数据定位模块,用于利用图形定位技术,根据科目所在行数和列数将修正后的数据报表中的数据定位到图表数据中识别位置。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种智能识别图表数据的方法,其特征在于,所述方法包括:
获取图表数据;所述图表数据包括PNG、JPG、JPEG、BMP、TIFF类型的图片数据以及WORD、PDF、EXCEL类型文档的数据报表;
对所述图表数据进行转化,得到关系型数据;
根据所述关系型数据得到标签列的数量和数据列的数量;
根据所述标签列的数量、所述数据列的数量和所述关系型数据,得到m标签列n数据列的数据报表;其中,m表示所述标签列的数量;n表示所述数据列的数量;所述m标签列n数据列的数据报表中包括以标签和数据表示的所述关系型数据;
对所述m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表;
根据设定的标签科目间勾稽关系公式,对所述标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;所述错误数据的核算结果不符合所述设定的标签科目间勾稽关系公式;
对所述错误数据进行修正,得到修正后的数据报表;
对所述修正后的数据报表进行展示。
2.根据权利要求1所述的智能识别图表数据的方法,其特征在于,所述对所述图表数据进行转化,得到关系型数据,具体包括:
利用百度图像处理技术对所述图表数据进行转化,得到关系型数据。
3.根据权利要求1所述的智能识别图表数据的方法,其特征在于,所述根据所述标签列的数量、所述数据列的数量和所述关系型数据,得到m标签列n数据列的数据报表,具体包括:
在数据报表模板库中匹配m标签列n数据列的数据报表模板;
若匹配到m标签列n数据列的数据报表模板,则以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表;
若未匹配到m标签列n数据列的数据报表模板,则在所述数据报表模板库中添加m标签列n数据列的数据报表模板,并以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表。
4.根据权利要求1所述的智能识别图表数据的方法,其特征在于,所述对所述错误数据进行修正,得到修正后的数据报表,之后还包括:
利用图形定位技术,根据科目所在行数和列数将所述修正后的数据报表中的数据定位到所述图表数据中识别位置。
5.一种智能识别图表数据的系统,其特征在于,所述系统包括:
图表数据获取模块,用于获取图表数据;所述图表数据包括PNG、JPG、JPEG、BMP、TIFF类型的图片数据以及WORD、PDF、EXCEL类型文档的数据报表;
图表数据转化模块,用于对所述图表数据进行转化,得到关系型数据;
标签列和数据列数量得到模块,用于根据所述关系型数据得到标签列的数量和数据列的数量;
m标签列n数据列数据报表得到模块,用于根据所述标签列的数量、所述数据列的数量和所述关系型数据,得到m标签列n数据列的数据报表;其中,m表示所述标签列的数量;n表示所述数据列的数量;所述m标签列n数据列的数据报表中包括以标签和数据表示的所述关系型数据;
标签合并模块,用于对所述m标签列n数据列的数据报表进行标签合并,得到标签合并后的数据报表;
标签科目间勾稽关系核算模块,用于根据设定的标签科目间勾稽关系公式,对所述标签合并后的数据报表中的数据进行标签科目间勾稽关系的核算,得到错误数据;所述错误数据的核算结果不符合所述设定的标签科目间勾稽关系公式;
错误数据修正模块,用于对所述错误数据进行修正,得到修正后的数据报表;
修正后的数据报表展示模块,用于对所述修正后的数据报表进行展示。
6.根据权利要求5所述的智能识别图表数据的系统,其特征在于,所述图表数据转化模块具体包括:
图表数据转化单元,用于利用百度图像处理技术对所述图表数据进行转化,得到关系型数据。
7.根据权利要求5所述的智能识别图表数据的系统,其特征在于,所述m标签列n数据列数据报表得到模块具体包括:
数据报表模板匹配单元,用于在数据报表模板库中匹配m标签列n数据列的数据报表模板;
第一关系型数据表示单元,用于若匹配到m标签列n数据列的数据报表模板,则以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表;
第二关系型数据表示单元,用于若未匹配到m标签列n数据列的数据报表模板,则在所述数据报表模板库中添加m标签列n数据列的数据报表模板,并以m标签列n数据列的数据报表模板的形式表示所述关系型数据,得到m标签列n数据列的数据报表。
8.根据权利要求5所述的智能识别图表数据的系统,其特征在于,所述系统还包括:
数据定位模块,用于利用图形定位技术,根据科目所在行数和列数将所述修正后的数据报表中的数据定位到所述图表数据中识别位置。
CN202211270048.5A 2022-10-18 2022-10-18 一种智能识别图表数据的方法及系统 Pending CN115587098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211270048.5A CN115587098A (zh) 2022-10-18 2022-10-18 一种智能识别图表数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211270048.5A CN115587098A (zh) 2022-10-18 2022-10-18 一种智能识别图表数据的方法及系统

Publications (1)

Publication Number Publication Date
CN115587098A true CN115587098A (zh) 2023-01-10

Family

ID=84780841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211270048.5A Pending CN115587098A (zh) 2022-10-18 2022-10-18 一种智能识别图表数据的方法及系统

Country Status (1)

Country Link
CN (1) CN115587098A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983223A (zh) * 2023-03-21 2023-04-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983223A (zh) * 2023-03-21 2023-04-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质
CN115983223B (zh) * 2023-03-21 2023-07-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
US20200285805A1 (en) Systems and methods for user interfaces that provide enhanced verification of extracted data
US20050183002A1 (en) Data and metadata linking form mechanism and method
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN109062872B (zh) 一种对不同格式报关文件进行统一处理的方法
CN112016287B (zh) 数据管理方法、平台、存储介质及电子设备
CN113822037B (zh) 插入占位符并生成数据映射表的方法、装置、设备及介质
CN112926299B (zh) 一种文本比对方法、合同审阅方法、审核系统
CN112328589B (zh) 一种电子表格数据颗粒化及指标标准化处理方法
CN115587098A (zh) 一种智能识别图表数据的方法及系统
CN117009422A (zh) 便利业务人员进行数据导入的实现方法
US6792145B2 (en) Pattern recognition process for text document interpretation
Walton et al. A cost analysis of transcription systems
CN114493266A (zh) 工程造价成果质量智能品控方法及系统
CN116303641B (zh) 一种支持多数据源可视化配置的实验室报告管理方法
CN111708814A (zh) 一种数据统计方法、装置、设备和介质
US20100023517A1 (en) Method and system for extracting data-points from a data file
CN114742026A (zh) 一种基于模板技术生成富文本形式的pdf方法
CN115186638A (zh) 一种基于零代码开发平台的工程资料表格制作方法及系统
CN112258151B (zh) 一种基于pandas的对账方法、装置、计算机设备和存储介质
CN110597899B (zh) 项目经费管理方法及系统
CN113780716A (zh) 一种业务台账生成系统
CN112396343A (zh) 一种数据质量核查方法及装置
CN111143337A (zh) 产品数据管理系统中提升数据质量的方法
CN113674115B (zh) 一种基于数据治理技术的高校数据管理辅助系统及方法
CN117540704B (zh) 一种数据表的数据逆透视转换方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 3005, No.9, Lane 803, Shuangcheng Road, Baoshan District, Shanghai 201900

Applicant after: Shanghai Ouye Jincheng Information Service Co.,Ltd.

Address before: Room 3005, No.9, Lane 803, Shuangcheng Road, Baoshan District, Shanghai 201900

Applicant before: SHANGHAI OUYE FINANCE INFORMATION SERVICE Co.,Ltd.

CB02 Change of applicant information