CN117350258A - 一种数据处理方法和装置 - Google Patents
一种数据处理方法和装置 Download PDFInfo
- Publication number
- CN117350258A CN117350258A CN202311226458.4A CN202311226458A CN117350258A CN 117350258 A CN117350258 A CN 117350258A CN 202311226458 A CN202311226458 A CN 202311226458A CN 117350258 A CN117350258 A CN 117350258A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- template
- extraction
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 17
- 238000013075 data extraction Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 12
- 239000000463 material Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法和装置,涉及数据处理技术领域。该方法的一具体实施方式包括:接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;将所述多个结构化数据汇总至所述数据提取表格中。该实施方式利用信息提取工具提取各PDF表格的数据并结构化处理及汇总,能够提高表格数据的查找和分析效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和装置。
背景技术
企业办公中,各办事流程经常需要通过Word和PDF等文档收集申请人提交的表格材料。在实际场景中,每个申请人的材料是单独提交的一份或几份表格材料,各申请人提交的材料信息未进行结构化数据提取和汇总,调档时只能单独查阅到对应申请人的材料,不能针对整体数据进行筛选和分析。
目前针对表格文档数据的提取有简单的人工复制粘贴或者使用数据提取工具。针对少量的表格文档,通过人工复制粘贴可以解决问题,但随着文档数的增长,此方式不再适用。表格数据提取工具基于特定技术进行表格结构化,准确率有待提高,且多为几个不同文档识别的结构化数据汇总为一个excel的几个对应sheet,并保留原表格的格式,汇总的数据格式不方便进行数据查找分析和更深层次的机器学习或深度学习。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法和装置,至少能够解决现有技术中数据汇总不便且准确率较低的现象。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法,包括:
接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;
获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;
将所述多个结构化数据汇总至所述数据提取表格中;其中,所述数据提取表格中的表头为所述数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
可选的,在所述接收一个或多个基于表格模版生成的表格之前,所述方法还包括:
接收上传的表格模版,将所述表格模版转换为预设类型的目标表格模版,调用信息提取工具,以提取目标表格模版中各个单元格的相对位置信息和内容信息;
根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示,以接收对其中部分单元格的选择操作,将选择的单元格的内容信息作为键名,剩余单元格的内容信息作为键值;
建立各个键名和各个键值之间的对应关系,将所述对应关系作为数据提取关系存储到数据库中。
可选的,相对位置信息包括:单元格区域上边界到页面上边界的距离、以及单元格区域左边界到页面左边界的距离、单元格区域的长度和宽度。
可选的,所述方法还包括:响应于检测到内容信息中存在转义字符,将所述转义字符替换为空格。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据处理装置,包括:
提取模块,用于接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;
处理模块,用于获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;
汇总模块,用于将所述多个结构化数据汇总至所述数据提取表格中;其中,所述数据提取表格中的表头为所述数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
可选的,所述装置还包括模板配置服务模块,用于:
接收上传的表格模版,将所述表格模版转换为预设类型的目标表格模版,调用信息提取工具,以提取目标表格模版中各个单元格的相对位置信息和内容信息;
根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示,以接收对其中部分单元格的选择操作,将选择的单元格的内容信息作为键名,剩余单元格的内容信息作为键值;
建立各个键名和各个键值之间的对应关系,将所述对应关系作为数据提取关系存储到数据库中。
可选的,相对位置信息包括:单元格区域上边界到页面上边界的距离、以及单元格区域左边界到页面左边界的距离、单元格区域的长度和宽度。
可选的,所述模板配置服务模块,还用于:响应于检测到内容信息中存在转义字符,将所述转义字符替换为空格。
为实现上述目的,根据本发明实施例的再一方面,提供了一种数据处理电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的数据处理方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的数据处理方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算程序产品。本发明实施例的一种计算程序产品,包括计算机程序,所述程序被处理器执行时实现本发明实施例提供的数据处理方法。
根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:将Word等其他类型表格统一转换为PDF表格,利用Tabula工具提取PDF表格数据并结构化处理及汇总,能够提高表格文档数据的查找和分析效率,为后续挖掘更深层次的数据价值信息提供数据基础。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种数据处理方法的主要流程示意图;
图2是表格模版示例图;
图3根据本发明实施例的一种可选的数据处理方法的流程示意图;
图4是根据本发明实施例的一具体地数据处理方法的整体流程示意图;
图5是根据本发明实施例的一种数据处理装置的主要模块示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。本发明的技术方案中,所涉及的用户个人信息的采集、分析、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法且合理的用途,不在这些合法使用等方面之外共享、泄露或出售,并且接受监管部门的监督管理。应当对用户个人信息采取必要措施,以防止对此类个人信息数据的非法访问,确保有权访问个人信息数据的人员遵守相关法律法规的规定,确保用户个人信息安全。
一旦不再需要这些用户个人信息数据,应当通过限制甚至禁止数据收集和/或删除数据的方式将风险降至最低。当适用时,包括在某些相关应用程序中,通过对数据去标识来保护用户隐私,例如在适用时通过移除特定标识符(例如,出生日期等)、控制所存储数据的量或特异性(例如,在城市级别而不是在具体地址级别收集位置数据)、控制数据如何被存储、和/或其他方法去标识。
参见图1,示出的是本发明实施例提供的一种数据处理方法的主要流程图,包括如下步骤:
S101:接收上传的表格模版,将所述表格模版转换为预设类型的目标表格模版,调用信息提取工具,以提取目标表格模版中各个单元格的相对位置信息和内容信息;
S102:根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示,以接收对其中部分单元格的选择操作,将选择的单元格的内容信息作为键名,剩余单元格的内容信息作为键值;
S103:建立各个键名和各个键值之间的对应关系,将所述对应关系作为数据提取关系存储到数据库中。
上述实施方式中,对于步骤S101,以图2所示表格模版为例,分发表格模版给多个申请人提交材料,多个申请人可以基于该表格模版生成不同的表格文档,如Word和PDF等类型的文档;其中,Word为一个文字处理器应用程序,PDF为一种跨操作系统平台的文件格式。
为方便进行表格数据提取,本方案对于表格模版可以仅上传其中一个类型即可,比如图2所示证明材料表格模版可能存在Word类型和PDF类型,可以选其一上传。对于Word类型表格模版,需要后台利用Java工具库documents4进行文档格式转换,统一转换为PDF类型的目标表格模版。但若上传的是PDF类型表格模版,则无需转换。其中,Java为一门面向对象编程语言,documents4j为一个用来进行文档格式转换的Java工具库。
基于PDF类型的目标表格模版,利用Tabula工具进行PDF表格数据的提取,以获取表格模版中各单元格的信息,以JSON数据形式返回;其中,Tabula为专用于提取PDF表格数据工具库。单元格信息示例如下:
{
"top":53.279995,
"left":50.605717,
"width":467.35772705078127,
"height":52.31998062133789,
"text":"XXX"
}
其中,top表示单元格区域上边界到页面上边界的距离,left表示单元格区域左边界到页面左边界的距离,width和height表示单元格区域的宽度和长度,text表示单元格的内容信息。基于各单元格top和left信息确定各表格单元格的相对位置,基于left和width可以确定单元格之间的行关系,基于top和height可以确定列关系。对于text,若识别出的单元格内容信息中存在转义字符,例如“\r”(回车)、“\n”(换行),可以将其替换为空格。
同样以图2为例,对于“工作单位及职务”及其输入框的提取结果为:
{
"top":183.55287,
"left":84.39789,
"width":140.15211486816407,
"height":55.68711853027344,
"text":"工作单位及职务"
},
{
"top":183.55287,
"left":224.55,
"width":286.36956787109377,
"height":55.68711853027344,
"text":"XXX\rXXX"
}
输入框的内容是换行的,因此行换情况会被识别成转义字符“\r”,所以用空白替换,更改后为"text":"XXX XXX"。
对于步骤S102和S103,在目标表格模版中各个单元格的相对位置信息和内容信息确定后,可以根据各个单元格的相对位置信息,确定单元格之间的行关系和列关系。以上述“工作单位及职务”及其输入框的提取结果为例,由于两个输入框top值相同,即表示两个输入框位于同一行,由于text为"工作单位及职务"的left和width的和为224.55000486816407,约等于224.55,为text为"XXX XXX"的left,可知"工作单位及职务"位于"XXX XXX"的左侧且相邻位置。同理可以得到其他单元格之间的行关系和列关系。
比如,
"top":98.520004,
"left":84.39599,
"width":70.65401458740235,
"height":28.469985961914064,
"text":"姓名"
"top":98.520004,
"left":155.05,
"width":69.5,
"height":28.469985961914064,
"text":""
"top":98.520004,
"left":224.55,
"width":71.39997863769531,
"height":28.469985961914064,
"text":"性别"
"top":98.520004,
"left":295.94998,
"width":70.30001831054688,
"height":28.469985961914064,
"text":""
这四个JSON数据的top值相同,即表示这四个单元格位于同一行,对于姓名单元格,其"left":84.39599与"width":70.65401458740235的和,为"text":""的"left":155.05,则表示该单元格位于姓名单元格右侧且相邻位置。同样,"text":""的"left":155.05与"width":69.5的和,为"text":"性别"的"left":224.55,即表示性别单元格位于该单元格右侧且相邻位置。
以上示例仅对于行而言,对于列而言,则以top和height之和进行判断,以此确定列关系。在得到图2所示表格模版中各个单元格之间的行关系和列关系之后,可以展示给用户查看,之后由用户选择内容项和内容值,即选择键名键值的对应关系。
以图2所示表格模版为例,用户选择“姓名”、“性别”、“出生年月”、“年龄”、“身高”、“现居住地”、“文化程度”、“身份证号”、“工作单元及职务”为键名,剩余单元格的内容信息为键值,如工作单位及职务后的xxx即为内容项、键值,此处同样需要用户手动设置键名和键值之间的对应关系。
基于图2所示表格模版中键名和键值之间的对应关系,生成数据提取关系并存入MySQL数据库。基于该数据提取关系,可以进行后续的批量表格数据提取操作;其中,MySQL为一个关系型数据库管理系统。
上述实施例所提供的方法,对上传的表格模板进行解析,以确定各单元格的相对位置信息和内容信息,用户在前端选择配置单元格(键名)与单元格(键值)对应关系,为后续批量提取表格数据提供数据提取关系,以实现准确进行表格数据的结构化输入和入库操作。
参见图3,示出了根据本发明实施例的一种可选的数据处理方法流程示意图,包括如下步骤:
S301:接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;
S302:获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;
S303:将所述多个结构化数据汇总至所述数据提取表格中;其中,所述数据提取表格中的表头为所述数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
上述实施方式中,对于步骤S301,同样以图2所示表格模版为例,当申请人提交表格时,可能会转换文档格式后再提交,因而批量上传的同表格模板的表格,可能存在Word和PDF类型。为方便进行表格数据提取,对于上传的Word类型表格,利用Java工具库documents4j进行文档格式转换,统一转换为PDF表格。之后通过Tabula工具进行每个PDF表格数据的提取,形成JSON数据。
对于步骤S302,可能存储有多个表格模版,因而需要从数据库中获取与图2所示表格模版对应的数据提取关系,之后基于该数据提取关系处理JSON数据,进一步形成结构化数据,存储到MySQL数据库中,进行数据持久化。
结构化数据是指按照特定格式和组织方式进行存储和管理的数据。它们通常以表格、数据库或其他预定义模式的形式存在,使得数据的存储、检索和分析变得更加方便和有效。与非结构化数据相比,结构化数据具有明确定义的字段和关系,可以通过查询和分析工具进行处理和解释。
实际应用中,对于不同申请人提交的同模板表格,单元格绝对位置很可能发生了变化,因而本方案不是直接基于经纬度定位,而是根据经纬度进一步确定相对位置后进行定位。同样以图2所示表格模版为例,利用代码解析后,返回的JSON数据部分示例如下:
"top":98.520004,
"left":84.39599,
"width":70.65401458740235,
"height":28.469985961914064,
"text":"姓名"
其中,top表示该单元格区域上边界到页面上边界的距离,left表示该单元格区域上边界到页面左边界边界的距离,width和height表示单元格区域的宽度和长度,由此可以确定单元格位置。比如申请人提交的材料中,可能表格位置较小之类,申请人会自己调整表格单元格大小,方便填写下自己的内容,这就导致整体每个表格单元格的位置会发生一些改变,但是整个表格的格局(单元格相对位置)是不会变的,所以本文以top、left确定表格单元格之间相对位置。
对于步骤S303,结构化数据可以为key-value形式,将提取的JSON数据汇总到Excel数据提取表格进行展示,其中数据提取表格中的表头为数据提取关系中的键名(即内容项),每行数据中的各个列数据为键值(即内容值),每行数据对应一个表格。参见表1所示,为基于图2所示表格模版生成的数据提取表格,每一行对应一个申请人填写的表格文档信息:
表1
本方案还支持Excel文档的在线预览及下载,方便进行后续数据筛选查找和分析,比如简单筛选查找信息,或者是通过机器学习和深度学习进行模型训练,以挖掘更多价值信息。
另外,除了第一次的批量数据上传汇总之外,本方案对于后期同表格模板文档的数据提取,可以进行单个或多个同表格模板文档的添加,并进行数据提取和Excel汇总表格更新,将提取结果添加到已有的汇总Excel表格中。比如第一次上传了1000个基于图2所示表格模版生成的表格,第二次上传了100个同表格模版的表格,则会将这100个表格的信息,添加到表1所示表格之后,此时表格中的行数量由原先10001变为101001(包括一行表头)。
上述实施例所提供的方法,利用Tabula工具,提取各PDF表格的结构化数据并进行汇总,能够提高表格数据的查找和分析效率,此外,还可基于汇总数据,利用机器学习和深度学习进行模型训练,挖掘更深层次的价值信息。
参见图4,示出了根据本发明实施例的一具体的数据处理方法整个流程示意图,包括如下步骤:
1、接收上传的表格模版,利用Java工具库documents4j进行文档格式转换,将表格模版转换为PDF表格模版;
2、通过Tabula工具进行每个PDF表格模版的数据提取,形成JSON数据,包括相对位置信息和内容信息;
3、根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示;
4、接收用户对键名和键值的选择操作,建立键名和键值之间的对应关系,将对应关系作为数据提取关系存储到MySQL数据库中;
5、接收一个或多个基于表格模版生成的表格,利用Java工具库documents4j进行文档格式转换,将各类表格转换为PDF表格;
6、通过Tabula工具进行每个PDF表格的数据提取,形成JSON数据,包括相对位置信息和内容信息;
7、获取与表格模版对应的数据提取关系和Excel表格,使用数据提取关系处理各个单元格的信息,得到多个结构化数据;
8、将多个结构化数据汇总至Excel表格中;其中,Excel表格中的表头为数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
本发明实施例所提供的方法,涉及文档格式转换和PDF表格数据的提取,系统拟采用Java语言进行开发,采用Java的文档格式转换工具库documents4j进行Word、其他类型文档至PDF的转换,利用Tabula工具提取PDF表格数据,并根据各单元格经纬度确定相对位置进行定位及汇总,为后续进行数据查找统计及深层次数据挖掘提供数据基础。整体虽有人工选择配置部分,但是一个模板仅需配置一次,因而涉及人力成本较小。
现有虽有公开进行PDF表格数据的提取及结构化输出,但其采用二进制读取并遍历处理流对象的方式进行文字识别及数据提取,而本方案利用Tabula工具提取PDF表格数据,并以JSON格式输出表格数据,其中包括每个PDF表格单元格的相对位置及内容。现有有些技术对PDF表格数据进行识别后,保留原始表格样式或者基于业务需求进行很小的表格格式调整,最终以Excel格式表格进行展示,其主要是将PDF表格原格式输出为Excel表格,方便财务报表数据查看。而本方案重点在于用户选择需提取的内容项和对应内容确定对应键值对,一般申请人填写的表格都是一个统一模板,模版中设置有对应需填写内容项,申请人填写后提交表格。本方案首先上传空PDF表格模版,识别模版后基于表格各单元格经纬度位置及用户由系统前端输入的键值对关系,确定需提取的结构化数据,并以Excel表格形式进行展示,其中键值对中的键对应Excel表格的表头,值为对应的行内容,一行为一个表格的内容,多行数据集合即为多个同模板表格数据的汇总。
本方案侧重于应用,用以解决实际应用问题,直接使用Tabula工具提取PDF表格数据,识别后返回JSON数据,包括各表格单元格经纬度及单元格内文字内容。由于实际应用中,为能填写下对应的数据项内容,申请人可能会改变表格单元格的大小,但不会改变各单元格的相对位置。基于该实际情况,本方案基于各单元格经纬度确定单元格之间相对位置,从而进行定位,并由用户确定内容项和对应内容之间的键值对关系,确定数据提取关系,最后批量上传同模板文档,进行数据的批量提取和汇总,最后以Excel表格的形式进行展示。汇总得到的Excel表格数据方便用户进行查看分析,或者是利用机器学习和深度学习进行模型训练。
参见图5示出了本发明实施例提供的一种数据处理装置50的主要模块示意图,包括:
提取模块501,用于接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;
处理模块502,用于获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;
汇总模块503,用于将所述多个结构化数据汇总至所述数据提取表格中;其中,所述数据提取表格中的表头为所述数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
本发明实施装置还包括模板配置服务模块,用于:
接收上传的表格模版,将所述表格模版转换为预设类型的目标表格模版,调用信息提取工具,以提取目标表格模版中各个单元格的相对位置信息和内容信息;
根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示,以接收对其中部分单元格的选择操作,将选择的单元格的内容信息作为键名,剩余单元格的内容信息作为键值;
建立各个键名和各个键值之间的对应关系,将所述对应关系作为数据提取关系存储到数据库中。
本发明实施装置中,相对位置信息包括:单元格区域上边界到页面上边界的距离、以及单元格区域左边界到页面左边界的距离、单元格区域的长度和宽度。
本发明实施装置中,所述模板配置服务模块,还用于:响应于检测到内容信息中存在转义字符,将所述转义字符替换为空格。
另外,在本发明实施例中所述装置的具体实施内容,在上面所述方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的示例性系统架构600,包括终端设备601、602、603,网络604和服务器605(仅仅是示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,安装有各种通讯客户端应用,用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。
网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器605可以是提供各种服务的服务器,需要说明的是,本发明实施例所提供的方法一般由服务器605执行,相应地,装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括提取模块、处理模块、汇总模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,处理模块还可以被描述为“结构化处理模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行上述任一所述的数据处理方法。
本发明的计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明实施例中的数据处理方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (11)
1.一种数据处理方法,其特征在于,包括:
接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;
获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;
将所述多个结构化数据汇总至所述数据提取表格中;其中,所述数据提取表格中的表头为所述数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
2.根据权利要求1所述的方法,其特征在于,在所述接收一个或多个基于表格模版生成的表格之前,所述方法还包括:
接收上传的表格模版,将所述表格模版转换为预设类型的目标表格模版,调用信息提取工具,以提取目标表格模版中各个单元格的相对位置信息和内容信息;
根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示,以接收对其中部分单元格的选择操作,将选择的单元格的内容信息作为键名,剩余单元格的内容信息作为键值;
建立各个键名和各个键值之间的对应关系,将所述对应关系作为数据提取关系存储到数据库中。
3.根据权利要求2所述的方法,其特征在于,相对位置信息包括:单元格区域上边界到页面上边界的距离、以及单元格区域左边界到页面左边界的距离、单元格区域的长度和宽度。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:响应于检测到内容信息中存在转义字符,将所述转义字符替换为空格。
5.一种数据处理装置,其特征在于,包括:
提取模块,用于接收一个或多个基于表格模版生成的表格,将每个表格转换为预设类型的目标表格,调用信息提取工具,以提取每个目标表格中各个单元格的信息;
处理模块,用于获取与所述表格模版对应的数据提取关系和数据提取表格,使用所述数据提取关系处理所述各个单元格的信息,得到多个结构化数据;
汇总模块,用于将所述多个结构化数据汇总至所述数据提取表格中;其中,所述数据提取表格中的表头为所述数据提取关系中的键名,每行数据中的各个列数据为键值,一行数据对应一个目标表格。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括模板配置服务模块,用于:
接收上传的表格模版,将所述表格模版转换为预设类型的目标表格模版,调用信息提取工具,以提取目标表格模版中各个单元格的相对位置信息和内容信息;
根据各个单元格的相对位置信息,确定各个单元格之间的行关系和列关系并展示,以接收对其中部分单元格的选择操作,将选择的单元格的内容信息作为键名,剩余单元格的内容信息作为键值;
建立各个键名和各个键值之间的对应关系,将所述对应关系作为数据提取关系存储到数据库中。
7.根据权利要求6所述的装置,其特征在于,相对位置信息包括:单元格区域上边界到页面上边界的距离、以及单元格区域左边界到页面左边界的距离、单元格区域的长度和宽度。
8.根据权利要求6或7所述的装置,其特征在于,所述模板配置服务模块,还用于:响应于检测到内容信息中存在转义字符,将所述转义字符替换为空格。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311226458.4A CN117350258A (zh) | 2023-09-21 | 2023-09-21 | 一种数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311226458.4A CN117350258A (zh) | 2023-09-21 | 2023-09-21 | 一种数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117350258A true CN117350258A (zh) | 2024-01-05 |
Family
ID=89356627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311226458.4A Pending CN117350258A (zh) | 2023-09-21 | 2023-09-21 | 一种数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117350258A (zh) |
-
2023
- 2023-09-21 CN CN202311226458.4A patent/CN117350258A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183912B (zh) | 异常日志确定方法和装置 | |
US20150026556A1 (en) | Systems and Methods for Extracting Table Information from Documents | |
CN103605502B (zh) | 表单页面显示方法及服务器 | |
CN111552704A (zh) | 一种数据报表生成方法、装置、计算机设备及存储介质 | |
CN105224544A (zh) | 一种数据库的数据编辑方法及装置 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
CN115391439B (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN112800354A (zh) | 政策发布与智能推送方法、系统、设备和介质 | |
US20200026749A1 (en) | Pdf extraction with text-based key | |
CN113158988B (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN114037493A (zh) | 一种招标文件的生成方法和系统 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN115759029A (zh) | 文档模板处理方法、装置、电子设备及存储介质 | |
CN116204428A (zh) | 一种测试用例生成方法和装置 | |
US10699329B2 (en) | Systems and methods for document to order conversion | |
CN117350258A (zh) | 一种数据处理方法和装置 | |
CN111079185A (zh) | 数据库信息处理的方法、装置、存储介质及电子设备 | |
CN110727897B (zh) | 支持多终端操作的地质调查信息服务快速发布方法及系统 | |
CN111159234A (zh) | 一种对比报表的方法和装置 | |
CN112905164A (zh) | 一种项目代码处理方法和装置 | |
CN110716994A (zh) | 一种支持异构地理数据资源检索的检索方法及装置 | |
CN115098090B (zh) | 表单生成方法及装置 | |
KR20170050338A (ko) | 데이터 구조화 방법 | |
CN117291151A (zh) | 文档格式的转换控制方法、装置、计算机可读介质及设备 | |
CN116306536A (zh) | 一种电子表格生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |