CN113553326A - 电子表格数据处理方法、装置、计算机设备和存储介质 - Google Patents
电子表格数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113553326A CN113553326A CN202110685527.2A CN202110685527A CN113553326A CN 113553326 A CN113553326 A CN 113553326A CN 202110685527 A CN202110685527 A CN 202110685527A CN 113553326 A CN113553326 A CN 113553326A
- Authority
- CN
- China
- Prior art keywords
- cell
- target
- candidate
- current
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 30
- 239000000203 mixture Substances 0.000 claims description 35
- 238000013145 classification model Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种电子表格数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取待处理的目标电子表格;获取目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;将目标表格策略所对应的单元格区域关联关系对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格,对目标子表格进行结构化信息提取,得到目标子表格对应的结构化信息。采用本方法能够提高电子表格数据处理的准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种电子表格数据处理方法、装置、计算机设备和存储介质。
背景技术
随着数据处理技术的发展,电子表格数据处理是数据处理技术中的重要分支,也得到了快速的发展。电子表格不但能够用于在电子设备中输入输出、显示数据,也能够用于帮助用户制作各种复杂的电子表格文档,进行数据计算,并能对输入的数据中复杂统计算后显示。因其应用的便利性和高效性,得到了广泛的应用,如何准确地处理电子表格数据显得尤为重要。
然而,目前的电子表格往往存在含有多级表头、一张表格内含多个子表格,结构灵活多变的情况,传统的电子表格数据处理方法对于结构复杂灵活多变的表格,存在处理效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高电子表格数据处理效率的电子表格数据处理方法、装置、计算机设备和存储介质。
一种电子表格数据处理方法,所述方法包括:获取待处理的目标电子表格;获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;所述候选表格组合策略集合包括多个候选表格组合策略,所述候选表格组合策略为将具有关联关系的单元格区域组合成所述目标电子表格对应的子表格的策略;将所述目标表格策略所对应的单元格区域关联关系对所述目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格。
在其中一个实施例中,所述获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域包括:获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别;将目标单元格类别相同的连续单元格进行合并,得到多个目标单元格区域。
在其中一个实施例中,所述获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别包括:确定待确定特征的当前单元格以及所述当前单元格对应的相邻单元格;将所述当前单元格的单元格数据属性信息与所述相邻单元格的单元格数据属性信息进行比较,得到比较结果;基于所述比较结果得到所述当前单元格对应的单元格特征。
在其中一个实施例中,所述获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别包括:获取所述目标电子表格中各个单元格的单元格特征,将所述单元格特征输入到单元格类别分类模型中,所述单元格类别分类模型输出所述候选单元格类别集合中各个候选单元格类别对应的类别可能度;所述候选单元格类别集合包括表头类别、数据类别、数据组标识类别或者附属类别中的至少一个;从所述候选单元格类别集合中筛选得到类别可能度大于类别可能度阈值的候选单元格类别,作为所述单元格对应的目标单元格类别。
在其中一个实施例中,所述获取候选表格组合策略集合各个候选表格组合策略对应的表格评价分数包括:确定当前候选表格组成策略;获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合;获取当前子表格集合中各个当前子表格对应的当前表格评价分数;对当前子表格对应的当前表格评价分数进行统计,得到当前候选表格组合策略对应的当前表格评价分数。
在其中一个实施例中,所述从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略包括:朝着使当前表格评价分数满足表格条件的方向对当前候选表格组成策略进行调整,得到更新后的当前候选表格组成策略;返回获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合的步骤,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略。
在其中一个实施例中,所述获取当前子表格集合中各个当前子表格对应的当前表格评价分数包括:获取组成所述当前子表格对应的当前单元格区域集合;获取所述当前单元格区域集合中各个当前单元格区域对应的当前单元格类别;基于所述当前单元格类别所对应的当前单元格数据得到当前子表格对应的当前表格评价分数。
在其中一个实施例中,所述方法还包括:获取空白单元格;根据所述空白单元格周边非空白单元格的类别,以及所述空白单元格与周边非空白单元格之间的空间关系,得到所述空白单元格的单元格类别。一种电子表格数据处理装置,所述装置包括:目标电子表格获取模块,用于获取待处理的目标电子表格;多个目标单元格区域得到模块,用于获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域;目标表格策略获取模块,用于获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;所述候选表格组合策略集合包括多个候选表格组合策略,所述候选表格组合策略为将具有关联关系的单元格区域组合成所述目标电子表格对应的子表格的策略;目标子表格得到模块,用于将所述目标表格策略所对应的单元格区域关联关系对所述目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格;结构化信息得到模块,用于对所述目标子表格进行结构化信息提取,得到所述目标子表格对应的结构化信息。
在其中一个实施例中,多个目标单元格区域得到模块,用于获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别;将目标单元格类别相同的连续单元格进行合并,得到多个目标单元格区域。
在其中一个实施例中,多个目标单元格区域得到模块,用于确定待确定特征的当前单元格以及所述当前单元格对应的相邻单元格;将所述当前单元格的单元格数据属性信息与所述相邻单元格的单元格数据属性信息进行比较,得到比较结果;基于所述比较结果得到所述当前单元格对应的单元格特征。
在其中一个实施例中,多个目标单元格区域得到模块,用于获取所述目标电子表格中各个单元格的单元格特征,将所述单元格特征输入到单元格类别分类模型中,所述单元格类别分类模型输出所述候选单元格类别集合中各个候选单元格类别对应的类别可能度;所述候选单元格类别集合包括表头类别、数据类别、数据组标识类别或者附属类别中的至少一个;从所述候选单元格类别集合中筛选得到类别可能度大于类别可能度阈值的候选单元格类别,作为所述单元格对应的目标单元格类别。
在其中一个实施例中,目标表格策略获取模块,用于确定当前候选表格组成策略;获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合;获取当前子表格集合中各个当前子表格对应的当前表格评价分数;对当前子表格对应的当前表格评价分数进行统计,得到当前候选表格组合策略对应的当前表格评价分数。
在其中一个实施例中,目标表格策略获取模块,用于朝着使当前表格评价分数满足表格条件的方向对当前候选表格组成策略进行调整,得到更新后的当前候选表格组成策略;返回获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合的步骤,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略。
在其中一个实施例中,目标表格策略获取模块,用于获取组成所述当前子表格对应的当前单元格区域集合;获取所述当前单元格区域集合中各个当前单元格区域对应的当前单元格类别;基于所述当前单元格类别所对应的当前单元格数据得到当前子表格对应的当前表格评价分数。
在其中一个实施例中,所述装置用于获取空白单元格;根据所述空白单元格周边非空白单元格的类别,以及所述空白单元格与周边非空白单元格之间的空间关系,得到所述空白单元格的单元格类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待处理的目标电子表格;获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;所述候选表格组合策略集合包括多个候选表格组合策略,所述候选表格组合策略为将具有关联关系的单元格区域组合成所述目标电子表格对应的子表格的策略;将所述目标表格策略所对应的单元格区域关联关系对所述目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格;对所述目标子表格进行结构化信息提取,得到所述目标子表格对应的结构化信息。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待处理的目标电子表格;获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;所述候选表格组合策略集合包括多个候选表格组合策略,所述候选表格组合策略为将具有关联关系的单元格区域组合成所述目标电子表格对应的子表格的策略;将所述目标表格策略所对应的单元格区域关联关系对所述目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格,对所述目标子表格进行结构化信息提取,得到所述目标子表格对应的结构化信息。
上述电子表格数据处理方法、装置、计算机设备和存储介质,通过获取待处理的目标电子表格;获取上述目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;其中,候选表格组合策略集合包括多个候选表格组合策略,候选表格组合策略为将具有关联关系的单元格区域组合成目标电子表格对应的子表格的策略;将目标表格策略所对应的单元格区域关联关系对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格。能够通过获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略,并通过目标表格策略得到目标电子表格所对应的目标子表格,对该目标子表格进行结构化信息提取,得到目标子表格对应的结构化信息。从而实现了对结构复杂灵活多变的目标电子表格进行切分,得到一个或者多个完整的多个子表格,并对子表格进行结构化信息提取,能够适应复杂表格,例如表格中存在有多级表头、一张表格内包含多个子表、结构布局多变的表格的数据提取,提高了电子表格处理的效率以及准确性。
附图说明
图1为一个实施例中电子表格数据处理方法的应用环境图;
图2为一个实施例中电子表格数据处理方法的流程示意图;
图3为另一个实施例中电子表格数据处理方法的流程示意图;
图4为另一个实施例中电子表格数据处理方法的流程示意图;
图5为另一个实施例中电子表格数据处理方法的流程示意图;
图6为一个实施例中获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数步骤的流程示意图;
图7为另一个实施例中电子表格数据处理方法的流程示意图;
图8为另一个实施例中电子表格数据处理方法的流程示意图;
图9为另一个实施例中电子表格数据处理方法的流程示意图;
图10为一个实施例中单元格解析模块的解析示意图;
图11为一个实施例中单元格类别构建图结构的示意图;
图12为一个实施例中子表识别的示意图;图13为一个实施例中电子表格数据处理装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的电子表格数据处理方法,可以应用于如图1所示的应用环境中,具体应用到一种电子表格数据处理系统中。该电子表格数据处理系统包括终端102和服务器104,其中,终端102通过网络与服务器104进行通信。服务器104执行一种电子表格数据处理方法,具体的,服务器104从终端102获取待处理的目标电子表格;获取目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;候选表格组合策略集合包括多个候选表格组合策略,候选表格组合策略为将具有关联关系的单元格区域组合成目标电子表格对应的子表格的策略;将目标表格策略所对应的单元格区域关联关系对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解的,上述应用环境为本方案应用环境之一,本方案不限定运行在终端或服务器中。
在一个实施例中,如图2所示,提供了一种电子表格数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待处理的目标电子表格。
其中,电子表格是指具有输入输出、显示数据功能的表格。
具体地,服务器在进行电子表格分类之前,需要获取到终端发送的或者服务器本地存储的目标电子表格。
在一个实施例中,服务器可以实时获取到终端产生的电子表格,将该电子表格作为待处理的目标电子表格。
步骤204,获取目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域。
其中,单元格特征是指表示单元格特性的特征。例如,单元格的位置、大小或者字符数量等的至少一个。单元格区域是指单元格所属类别的区域。例如,单元格所属类别包括表头、数据、数据组标识和附属四种类别,则单元格区域包括表头区域、数据区域、数据组标识区域和附属区域四种。
具体地,在获取待处理的目标电子表格之后,对该目标电子表格进行单元格特征提取,得到单元格表格特征,然后基于单元格表格特征对单元格进行分类,将类别为同一个类别的连续的单元格划分在同一个区域中,一个目标单元格区域为一个单元格类别所对应的区域,目标单元格区域中的单元格是连续的。
在一个实施例中,可以使用单元格特征提取程序对获取目标电子表格中各个单元格的单元格特征,该单元格特征提取程序可以提取到多种单元格特征;例如,单元格的内容特征、格式特征、属性特征或者邻近单元格特征等。将上述特征进行数字类型转换后,输入到分类算法组合模型中,得到目标单元格区域。可以理解的,上述单元格的内容特征包括单元格的数据类型(数字、文本、时间等)、字符数量、特殊字符信息、关键字信息等;格式特征包括单元格格式,包括单元格边框信息、文本对齐方式、字体信息、单元格填充信息等;属性特征包括单元格的位置及大小信息等;邻近单元格特征包括邻近单元格数量、字号比较、内容信息等。
在一个实施例中,服务器将提取到的多种单元格特征进行数字类型转换后,输入到分类算法组合模型中后,得到各个单元格属于各个类别的可能度,将可能度最大的类别作为单元格所对应的类别,然后基于单元格所对应的类别对单元格进行区域划分,得到单元格区域。
在一个实施例中,基于各个单元格特征,可以将得到的各个单元格区域中,相邻类别的相邻单元格划分在同一区域中,得到多个目标单元格区域。
步骤206,获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;其中,候选表格组合策略集合包括多个候选表格组合策略,候选表格组合策略为将具有关联关系的单元格区域组合成目标电子表格对应的子表格的策略。
其中,表格评价分数是指评价组合在一起的单元格区域是否能够组成完整的单元格的分数。表格评价分数的高低可以用来评价候选表格组合策略的准确性;当单元格评价分数是用于评价表格是否好的分数时,则表格评价分数高表示候选表格组合策略准确性高,表格评价分数低表示候选表格组合策略准确性低;同样的,当单元格评价分数是用于评价表格是否不好的分数时,则表格评价分数高表示候选表格组合策略准确性低,表格评价分数低表示候选表格组合策略准确性高。表格条件是指能够将具有关联关系的单元格区域组合成目标电子表格对应的子表格的策略准确性最高的条件。
具体地,服务器在得到多个目标单元格区域后,利用候选表格组合策略可以将多个有关联关系的目标单元格区域,组合成目标电子表格对应的子表格的评价分数进行比较,将表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略。
在一个实施例中,服务器通过遍历候选表格组合策略集合中各个候选表格组合策略,得到多个候选表格评价分数,在上述多个候选表格评价分数中获取满足表格条件的表格评价分数,将该表格评价分数对应的候选表格组合策略,作为目标表格策略。例如,当单元格评价分数是用于评价表格是否好的分数时,则可以将表格评价分数最高的候选表格组合策略,作为目标表格策略。当单元格评价分数是用于评价表格是否不好的分数时,则可以将表格评价分数最低的候选表格组合策略,作为目标表格策略。
在一个实施例中,利用遗传算法得到候选表格组合策略集合中各个候选表格组合策略,并根据表格组合策略与表格评价分数之间的函数关系,得到表格评价分数,在各个候选表格组合策略对应的表格评价分数中,获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略。例如,当表格组合策略为E=[0,0,0]时,表格评价分数为0,而当表格组合策略为E=[0,0,1]时,表格评价分数为2,当表格评价分数高表示候选表格组合策略准确性高时,将表格组合策略为E=[0,0,0]作为目标表格策略。
步骤208,将目标表格策略所对应的单元格区域关联关系对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格。
其中,关联关系是指单元格区域在水平方向、垂直方向或者相邻方向具有关联的关系,但存在关联关系时,说明单元格区域是具有联系的;关联关系可以包括关联或者不关联,或者可以利用数字表示关联关系,例如,1表示关联,0表示不关联。
具体地,服务器在得到目标表格策略之后,根据目标表格策略中所对应的关联关系,对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格。
在一个实施例中,服务器可以利用目标表格策略得到目标表格中单元格区域关联关系,利用单元格所对应的区域构建图结构。在该图结构中,将单元格所对应的区域作为图的节点,将目标表格策略所对应的单元格区域关联关系作为图结构中的边,从而得到各个类别所对应的目标子表格。可以理解的,在上述图结构中,具有关联关系的两个节点之间是有连接关系的,不具有关联关系的两个节点之间是不具有连接关系的。
步骤210,对目标子表格进行结构化信息提取,得到目标子表格对应的结构化信息。
其中,结构化信息是指以子表格中各个类别之间的关联系进行存储的信息。例如,以目标子表格的表头区域、数据区域和数据组ID(Identify)区域为一组结构化信息进行存储,通过该目标子表格的表头区域,能够唯一确定该目标子表格的数据区域。
具体地,服务器在得到各个类别所对应的目标子表格之后,可以对目标子表格进行结构化信息提取,得到目标子表格对应的结构化信息,将该结构化信息存储到结构化数据库中。
上述电子表格数据处理方法中,通过获取待处理的目标电子表格;获取上述目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域;获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;其中,候选表格组合策略集合包括多个候选表格组合策略,候选表格组合策略为将具有关联关系的单元格区域组合成目标电子表格对应的子表格的策略;将目标表格策略所对应的单元格区域关联关系对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格。能够通过获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略,并通过目标表格策略得到目标电子表格所对应的目标子表格,对该目标子表格进行结构化信息提取,得到目标子表格对应的结构化信息。从而实现了对结构复杂灵活多变的目标电子表格的分类处理,并对子表格进行结构化信息提取,能够适应复杂表格,例如表格中存在有多级表头、一张表格内包含多个子表、结构布局多变的表格的数据提取,提高了电子表格处理的准确性。
在一个实施例中,如图3所示,获取目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域包括:
步骤302,获取目标电子表格中各个单元格的单元格特征,基于单元格特征,从候选单元格类别集合中确定单元格对应的目标单元格类别。
其中,单元格类别是指单元格所属的区域的类别;例如,单元格区域为表头区域,则单元格类别为表头。
具体地,服务器通过单元格特征获取工具,得到目标电子表格中各个单元格的单元格特征,通过上述单元格特征,可以确定单元格对应的目标单元格类别。
在一个实施例中,服务器利用单元格特征提取工具提取单元格特征,例如,基于python(计算机编程语言)开源框架。利用单元格特征中最明显特征与单元格类别之间的对应关系,从候选单元格类别集合中确定单元格对应的目标单元格类别。
步骤304,将目标单元格类别相同的连续单元格进行合并,得到多个目标单元格区域。
具体地,服务器在确定单元格对应的目标单元格类别后,将目标单元格类别相同的,并且连续的单元格进行合并,得到合并后的单元格类别区域,将该类别区域作为目标单元格区域。例如,目标单元格1的类别为表头,目标单元格2的类别也为表头,并且目标单元格1和目标单元格2为连续的单元格,则将目标单元格1和目标单元格2合并,得到目标单元格区域为类别为表头的类别区域。
本实施例中,通过获取目标电子表格中各个单元格的单元格特征,基于单元格特征,从候选单元格类别集合中确定单元格对应的目标单元格类别,将目标单元格类别相同的连续单元格进行合并,得到多个目标单元格区域,能够达到将具有相同类别的单元格进行合并得到多个目标单元格区域目的。
在一个实施例中,如图4所示,获取目标电子表格中各个单元格的单元格特征,基于单元格特征,从候选单元格类别集合中确定单元格对应的目标单元格类别包括:
步骤402,确定待确定特征的当前单元格以及当前单元格对应的相邻单元格。
其中,相邻单元格是指与当前单元格相邻的单元格。
具体地,服务器可以通过定位条件,例如,当前单元格的行列坐标信息,确定待确定特征的当前单元格以及当前单元格对应的相邻单元格。
步骤404,将当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行比较,得到比较结果。
其中,数据属性信息是指数据特有的信息。属性信息包括单元格的数量、字号大小或者内容信息等。
具体地,在确定待确定特征的当前单元格以及当前单元格对应的相邻单元格之后,可以通过当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行比较,得到比较结果。
在一个实施例中,通过对当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行相关度匹配,得到比较结果。例如,利用语义匹配的方法,对当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行比较,得到比较结果。
在一个实施例中,服务器通过利用文本分类算法对当前单元格的单元格中的内容信息和相邻单元格的内容信息进行分类,得到当前单元格的单元格中的内容信息和相邻单元格的内容信息属于同一类别的概率,基于该概率,得到当前单元格的单元格中的内容信息和相邻单元格的内容信息是否属于同一类别的比较结果,也即当前单元格以及当前单元格对应的相邻单元格是否属于同一类别的比较结果。例如,假设上述概率阈值为90%,当得到的上述概率为95%时,确定当前单元格中的内容信息和相邻单元格中的内容信息属于同一类别,也即当前单元格以及当前单元格对应的相邻单元格属于同一类别。
在一个实施例中,服务器通过对当前单元格中的字号和相邻单元格中的字号进行比较,得到比较结果。例如,若当前单元格中以及当前单元格对应的相邻单元格中的字号相同时,则得到当前单元格以及当前单元格对应的相邻单元格属于同一类别的比较结果。
步骤406,基于比较结果得到当前单元格对应的单元格特征。
具体地,在得到当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行比较结果后,可以根据与当前单元格的相邻单元格的单元格特征,得到当前单元格对应的单元格特征。
在一个实施例中,利用语义匹配的方法,得到的对比结果为相同或者相似,相似可以理解为相似度达到预设相似度。例如,对比结果为字号相同和内容信息相同,则当相邻单元格的格式特征为单元格边框信息为全边框和文本对齐方式居中对齐时,当前单元格对应的单元格特征也为单元格边框信息为全边框和文本对齐方式居中对齐。
本实施例中,通过确定待确定特征的当前单元格以及当前单元格对应的相邻单元格,将当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行比较,得到比较结果,基于比较结果得到当前单元格对应的单元格特征,能够达到通过单元格数据属性信息之间的比较结果,确定当前单元格对应的单元格特征的目的,提高当前单元格特征确定的准确性。
在一个实施例中,如图5所示,获取目标电子表格中各个单元格的单元格特征,基于单元格特征,从候选单元格类别集合中确定单元格对应的目标单元格类别包括:
步骤502,获取目标电子表格中各个单元格的单元格特征,将单元格特征输入到单元格类别分类模型中,单元格类别分类模型输出候选单元格类别集合中各个候选单元格类别对应的类别可能度;候选单元格类别集合包括表头类别、数据类别、数据组标识类别或者附属类别中的至少一个。
其中,单元格类别分类模型是指能够对单元格进行类别分类的模型。该模型为分类算法组合模型。类别可能度是指单元格属于某种单元格类别的可能性。
具体地,在单元格类别分类模型中包括有候选单元格类别集合,通过将获取到的各个单元格的单元格特征进行数据类型转换后,转换成数字类型表示的特征,将该特征输入到上述单元格类别分类模型中,得到各个候选单元格类别对应的类别可能度。
步骤504,从候选单元格类别集合中筛选得到类别可能度大于类别可能度阈值的候选单元格类别,作为单元格对应的目标单元格类别。
其中,类别可能度阈值是指类别可能度的临界值。大于等于该临界值,认为候选单元格类别是单元格对应的目标单元格类别,小于该临界值,认为候选单元格类别不是单元格对应的目标单元格类别。
具体地,在得到各个候选单元格类别对应的类别可能度后,基于该类别可能度和类别可能度阈值之间的比较,确定单元格对应的目标单元格类别。例如,当得到的类别可能度大于类别可能度阈值时,将该类别可能度对应的单元格类别,作为目标单元格类别。
本实施例中,通过获取目标电子表格中各个单元格的单元格特征,将单元格特征输入到单元格类别分类模型中,单元格类别分类模型输出候选单元格类别集合中各个候选单元格类别对应的类别可能度,从候选单元格类别集合中筛选得到类别可能度大于类别可能度阈值的候选单元格类别,作为单元格对应的目标单元格类别,能够达到准确得到单元格对应的目标单元格类别的目的。
在一个实施例中,如图6所示,获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数包括:
步骤602,确定当前候选表格组成策略。
其中,表格组成策略是指将单元格区域组合成表格的策略。该策略可以为各个单元格区域之间的关联关系得到的策略。例如,表格组成策略为E=[1,1,0,1,0]或者E=[1,1,0]等。
具体地,基于表格组成策略中元素的个数,通过遗传算法得到当前候选表格组成策略。例如,表格组成策略中元素的个数为n,每个元素的取值为0或者1,可以利用遗传算法得到当前候选表格组成策略为2n种。
步骤604,获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合。
具体地,服务器确定当前候选表格组成策略后,利用该当前候选表格组成策略,可以将各个单元格区域进行组合,得到多个子表以及多个子表对应的当前子表格集合。
在一个实施例中,服务器可展示利用当前候选表格组合策略对单元格区域进行构图,将空间上相邻并且在水平或者垂直方向上全部或者部分对齐的单元格区域作为图中的节点,利用当前候选表格组合策略中单元格区域之间的关联关系,构建各节点之间的关联关系,将关联关系为连接的各节点进行实际连接,将关联关系为未连接的各节点进行虚拟连接,将存在有实际连接关系的节点认为是同一子表的节点,将关联关系为未连接的各节点认为不是同一子表的节点。
步骤606,获取当前子表格集合中各个当前子表格对应的当前表格评价分数。
具体地,服务器在获取当前子表格集合后,可以利用各个当前子表格的判断属性信息,结合上述判断属性信息对应的权重,构成当前表格评价分数。
在一个实施例中,当前表格评价分数可以表示为判断属性信息和判断属性信息对应的权重之间的乘积。例如,子表的判断属性信息表示为Fi,判断属性信息对应的权重为Ai,当前表格评价分数表示为Obiective Function,则Obiective Function表示为公式:
步骤608,对当前子表格对应的当前表格评价分数进行统计,得到当前候选表格组合策略对应的当前表格评价分数。
具体地,在获取当前子表格集合中各个当前子表格对应的当前表格评价分数后,对上述各个当前子表格对应的当前表格评价分数进行统计处理,将统计处理过后的当前表格评价分数作为当前候选表格组合策略对应的当前表格评价分数。
在一个实施例中,对上述各个当前子表格对应的当前表格评价分数进行统计处理,求得对各个当前表格评价分数中的平均值,将离上述平均值差值最小的当前表格评价分数,作为当前候选表格组合策略对应的当前表格评价分数。
本实施例中,通过确定当前候选表格组成策略,获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合,获取当前子表格集合中各个当前子表格对应的当前表格评价分数,对当前子表格对应的当前表格评价分数进行统计,得到当前候选表格组合策略对应的当前表格评价分数,能够达到准确得到当前表格评价分数的目的。
在一个实施例中,如图7所示,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略包括:
步骤702,朝着使当前表格评价分数满足表格条件的方向对当前候选表格组成策略进行调整,得到更新后的当前候选表格组成策略。
其中,满足表格条件的方向是指通过调整候选表格组成策略,能够使当前表格评价分数越来越接近于形成表格的条件。假设表格分数越小,形成的表格越准确,则调整方向为将表格分数调低的方向;假设表格分数越高,形成的表格越准确,则调整方向为将表格分数调高的方向。
具体地,利用遗传算法,不断求解当前候选表格组成策略,得到更新后的当前候选表格组成策略。
步骤704,返回获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合的步骤,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略。
具体地,在得到更新后的当前候选表格组成策略之后,返回步骤604,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略。
本实施例中,通过朝着使当前表格评价分数满足表格条件的方向对当前候选表格组成策略进行调整,得到更新后的当前候选表格组成策略,返回获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合的步骤,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略,能够达到准确得到目标表格策略的目的,进而提高电子表格数据处理的准确性。
在一个实施例中,如图8所示,获取当前子表格集合中各个当前子表格对应的当前表格评价分数包括:
步骤802,获取组成当前子表格对应的当前单元格区域集合。
具体地,通过单元格特征获取工具获取当前子表格中单元格特征,将获取到的单元格特征输入到组合分类模型中,得到当前单元格的类别,将相同类别并且相邻的单元格进行合并,得到当前单元格区域集合。
步骤804,获取当前单元格区域集合中各个当前单元格区域对应的当前单元格类别。
具体地,单元格区域和当前单元格类别具有一一对应关系,由单元格区域能够确定对应的单元格类别,由单元格类别能够确定单元格区域。例如,单元格区域为表头区域,则单元格类别为表头。
步骤806,基于当前单元格类别所对应的当前单元格数据得到当前子表格对应的当前表格评价分数。
其中,单元格数据是指单元格类别相关的数据。例如,单元格数据是关于表头的相关数据,该数据表示为F1,F1为计算子表中“表头”所占列数与该子表所占列数的比率,F1为1时,对应的当前表格评价分数越接近于表格条件,F1非1时,对应的当前表格评价分数越远离于表格条件。例如,表格条件为表格评价分数大于等于90分,当F1为1时,对应的当前表格评价分数为85分,而当F1非1时,对应的当前表格评价分数为70分。
具体地,不同的单元格数据可以得到不同的表格评价分数,通过单元格数据与表格评价分数之间的函数关系,可以通过当前单元格类别所对应的当前单元格数据,得到当前子表格对应的当前表格评价分数。
本实施例中,通过获取组成当前子表格对应的当前单元格区域集合,获取当前单元格区域集合中各个当前单元格区域对应的当前单元格类别,基于当前单元格类别所对应的当前单元格数据得到当前子表格对应的当前表格评价分数,能够达到通过当前子表格中的当前单元格数据,得到当前子表格对应的当前表格评价分数的目的。从而提高电子表格数据处理的准确性。
在一个实施例中,电子表格数据处理可以通过如图9所示的流程实现。具体地,服务器接收载入的电子表格,在单元格解析模块中,如图10所示,对上述电子表格中的单元格进行特征提取,将提取到的特征输入到分类算法中,输出单元格的类别,并经过后处理,得到准确的单元格特征和单元格类别。将单元格类别输入到布局推理模块中,构建图结构,基于优化算法的图搜索,进行子表识别,并将识别到的子表输入到信息提取模块中,将子表转换为结构化数据,并将该结构化数据输入到字段解析模块中,完成电子表格写入数据库。
在一个实施例中,后处理的过程可以通过以下步骤实现。空白单元格的出现是由于单元格内没有数据,分类算法无法对其进行分类。获取上述这部分空白单元格,在后处理的过程中,首先,根据空白单元格周边非空白单元格的类别,以及空白单元格与周边非空白单元格之间的空间关系,推理出该空白单元格的单元格类别。其次,将空白单元格与相邻的单元格类别相同的单元格进行融合,获得准确的类别区域。
在一个实施例中,如图11所示,根据单元格类别构建图结构,图结构的边表示为E,节点表示为V,图结构表示为G,则G可以表示为公式G=(E,V),该图结构中有V1,…,V8共8个结点,其中,表示表头的节点表示为1,表示数据组ID(Identify)的节点表示为2,表示数据的节点表示为3。在上述图结构中有E1,…,E11共11条边,每条边有0和1这两种取值,取值为0代表两个结点没有连接边,取值为1代表两个结点有连接边。例如,当E1=0时,代表V1和V2间没有连接边,当E1=1时,代表V1和V2间有连接边。对于图结构的每一种结点间连接边关系,都可以计算出其对应的目标函数值,即给定E的值,可计算出目标函数值。子表的子目标函数表示为Fi,子目标函数的权重表示为Ai,上述目标函数表示为ObjectiveFunction,则ObjectiveFunction表示为公式:
可以通过最小化上述目标函数值,得到E的值,即得到结点间连接边关系,来获得最优的子表识别结果。例如,如图12所示,当E4、E5、E6和E11取值为0,其他边取值为1时,上述目标函数值最小,识别出3个子表。
在一个实施例中,单元格类别的表头、数据组ID、数据和附属,分别与数据库的字段、索引、记录和数据库名相对应。在字段解析模块中,将提取的结构化信息存入数据库中,在存入数据库的过程需要提供数据库库名、字段、字段类型、索引、记录。通过单元格类别,可以确定结构化信息中的字段、索引和记录。通过语义分析和模糊匹配,可以实现数据库库名匹配或者字段匹配等。例如,字段“广东省”和字段“广东”表示的语义相同,可将它们匹配到一起;库名“广东省收入支出表”和“广东收入支出表”表示的语义相同,也可将它们匹配到一起,从而减少冗余,提高电子表格数据处理的效率。
应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图13所示,提供了一种电子表格数据处理装置1300,包括:目标电子表格获取模块1302、多个目标单元格区域得到模块1304、目标表格策略获取模块1306、目标子表格得到模块1308和结构化信息得到模块1310,其中:目标电子表格获取模块1302,用于获取待处理的目标电子表格;多个目标单元格区域得到模块1304,用于获取目标电子表格中各个单元格的单元格特征,基于单元格特征对目标电子表格中单元格进行区域划分,得到多个目标单元格区域;目标表格策略获取模块1306,用于获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;候选表格组合策略集合包括多个候选表格组合策略,候选表格组合策略为将具有关联关系的单元格区域组合成目标电子表格对应的子表格的策略;目标子表格得到模块1308,用于将目标表格策略所对应的单元格区域关联关系对目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格;结构化得到模块1310,用于对目标子表格进行结构化信息提取,得到目标子表格对应的结构化信息。
在一个实施例中,多个目标单元格区域得到模块1304,用于获取目标电子表格中各个单元格的单元格特征,基于单元格特征,从候选单元格类别集合中确定单元格对应的目标单元格类别;将目标单元格类别相同的连续单元格进行合并,得到多个目标单元格区域。
在一个实施例中,多个目标单元格区域得到模块1304,用于确定待确定特征的当前单元格以及当前单元格对应的相邻单元格;将当前单元格的单元格数据属性信息与相邻单元格的单元格数据属性信息进行比较,得到比较结果;基于比较结果得到当前单元格对应的单元格特征。
在一个实施例中,多个目标单元格区域得到模块1304,用于获取目标电子表格中各个单元格的单元格特征,将单元格特征输入到单元格类别分类模型中,单元格类别分类模型输出候选单元格类别集合中各个候选单元格类别对应的类别可能度;候选单元格类别集合包括表头类别、数据类别、数据组标识类别或者附属类别中的至少一个;从候选单元格类别集合中筛选得到类别可能度大于类别可能度阈值的候选单元格类别,作为单元格对应的目标单元格类别。
在一个实施例中,目标表格策略获取模块1306,用于确定当前候选表格组成策略;获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合;获取当前子表格集合中各个当前子表格对应的当前表格评价分数;对当前子表格对应的当前表格评价分数进行统计,得到当前候选表格组合策略对应的当前表格评价分数。
在一个实施例中,目标表格策略获取模块1306,用于朝着使当前表格评价分数满足表格条件的方向对当前候选表格组成策略进行调整,得到更新后的当前候选表格组成策略;返回获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合的步骤,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略。
在一个实施例中,目标表格策略获取模块1306,用于获取组成当前子表格对应的当前单元格区域集合;获取当前单元格区域集合中各个当前单元格区域对应的当前单元格类别;基于当前单元格类别所对应的当前单元格数据得到当前子表格对应的当前表格评价分数。
关于电子表格数据处理装置的具体限定可以参见上文中对于电子表格数据处理方法的限定,在此不再赘述。上述电子表格数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电子表格数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电子表格数据处理方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种电子表格数据处理方法,其特征在于,所述方法包括:
获取待处理的目标电子表格;
获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域;
获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;所述候选表格组合策略集合包括多个候选表格组合策略,所述候选表格组合策略为将具有关联关系的单元格区域组合成所述目标电子表格对应的子表格的策略;
将所述目标表格策略所对应的单元格区域关联关系对所述目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格;
对所述目标子表格进行结构化信息提取,得到所述目标子表格对应的结构化信息。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域包括:
获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别;
将目标单元格类别相同的连续单元格进行合并,得到多个目标单元格区域。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别包括:
确定待确定特征的当前单元格以及所述当前单元格对应的相邻单元格;
将所述当前单元格的单元格数据属性信息与所述相邻单元格的单元格数据属性信息进行比较,得到比较结果;
基于所述比较结果得到所述当前单元格对应的单元格特征。
4.根据权利要求2所述的方法,其特征在于,所述获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征,从候选单元格类别集合中确定所述单元格对应的目标单元格类别包括:
获取所述目标电子表格中各个单元格的单元格特征,将所述单元格特征输入到单元格类别分类模型中,所述单元格类别分类模型输出所述候选单元格类别集合中各个候选单元格类别对应的类别可能度;所述候选单元格类别集合包括表头类别、数据类别、数据组标识类别或者附属类别中的至少一个;
从所述候选单元格类别集合中筛选得到类别可能度大于类别可能度阈值的候选单元格类别,作为所述单元格对应的目标单元格类别。
5.根据权利要求1所述的方法,其特征在于,所述获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数包括:
确定当前候选表格组成策略;
获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合;
获取当前子表格集合中各个当前子表格对应的当前表格评价分数;
对当前子表格对应的当前表格评价分数进行统计,得到当前候选表格组合策略对应的当前表格评价分数。
6.根据权利要求5所述的方法,其特征在于,所述从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略包括:
朝着使当前表格评价分数满足表格条件的方向对当前候选表格组成策略进行调整,得到更新后的当前候选表格组成策略;
返回获取利用当前候选表格组合策略对单元格区域进行组合所对应的当前子表格集合的步骤,直至满足表格条件,将满足表格条件的当前候选表格组成策略作为目标表格策略。
7.根据权利要求5所述的方法,其特征在于,所述获取当前子表格集合中各个当前子表格对应的当前表格评价分数包括:
获取组成所述当前子表格对应的当前单元格区域集合;
获取所述当前单元格区域集合中各个当前单元格区域对应的当前单元格类别;
基于所述当前单元格类别所对应的当前单元格数据得到当前子表格对应的当前表格评价分数。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取空白单元格;
根据所述空白单元格周边非空白单元格的类别,以及所述空白单元格与周边非空白单元格之间的空间关系,得到所述空白单元格的单元格类别。
9.一种电子表格数据处理装置,其特征在于,所述装置包括:
目标电子表格获取模块,用于获取待处理的目标电子表格;
多个目标单元格区域得到模块,用于获取所述目标电子表格中各个单元格的单元格特征,基于所述单元格特征对所述目标电子表格中单元格进行区域划分,得到多个目标单元格区域;
目标表格策略获取模块,用于获取候选表格组合策略集合中各个候选表格组合策略对应的表格评价分数,从所述候选表格组合策略集合中获取表格评价分数满足表格条件的候选表格组合策略,作为目标表格策略;所述候选表格组合策略集合包括多个候选表格组合策略,所述候选表格组合策略为将具有关联关系的单元格区域组合成所述目标电子表格对应的子表格的策略;
目标子表格得到模块,用于将所述目标表格策略所对应的单元格区域关联关系对所述目标电子表格所对应的单元格进行分类,得到各个类别所对应的目标子表格;
结构化信息得到模块,用于对所述目标子表格进行结构化信息提取,得到所述目标子表格对应的结构化信息。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110685527.2A CN113553326A (zh) | 2021-06-21 | 2021-06-21 | 电子表格数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110685527.2A CN113553326A (zh) | 2021-06-21 | 2021-06-21 | 电子表格数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553326A true CN113553326A (zh) | 2021-10-26 |
Family
ID=78130780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110685527.2A Pending CN113553326A (zh) | 2021-06-21 | 2021-06-21 | 电子表格数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553326A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510912A (zh) * | 2022-04-20 | 2022-05-17 | 佳瑛科技有限公司 | 基于分布式系统对电子表格进行分类的方法和系统及介质 |
CN114969258A (zh) * | 2022-05-27 | 2022-08-30 | 北京百度网讯科技有限公司 | 表格的处理方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198069A (zh) * | 2012-01-06 | 2013-07-10 | 株式会社理光 | 抽取关系型表格的方法和装置 |
CN104281563A (zh) * | 2013-07-01 | 2015-01-14 | 国际商业机器公司 | 用于发现表格数据中的关系的方法和系统 |
WO2020005605A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Table detection in spreadsheet |
CN111612726A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 图像数据筛选方法、装置、计算机设备和存储介质 |
CN112256936A (zh) * | 2020-10-30 | 2021-01-22 | 展指图(大连)营养科技有限公司 | 一种基于多维度指数法的食物分类方法以及系统 |
-
2021
- 2021-06-21 CN CN202110685527.2A patent/CN113553326A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198069A (zh) * | 2012-01-06 | 2013-07-10 | 株式会社理光 | 抽取关系型表格的方法和装置 |
CN104281563A (zh) * | 2013-07-01 | 2015-01-14 | 国际商业机器公司 | 用于发现表格数据中的关系的方法和系统 |
WO2020005605A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Table detection in spreadsheet |
CN111612726A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 图像数据筛选方法、装置、计算机设备和存储介质 |
CN112256936A (zh) * | 2020-10-30 | 2021-01-22 | 展指图(大连)营养科技有限公司 | 一种基于多维度指数法的食物分类方法以及系统 |
Non-Patent Citations (1)
Title |
---|
房婧;高良才;仇睿恒;汤帜;: "版式电子文档表格自动检测与性能评估", 北京大学学报(自然科学版), no. 01, 26 October 2012 (2012-10-26) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510912A (zh) * | 2022-04-20 | 2022-05-17 | 佳瑛科技有限公司 | 基于分布式系统对电子表格进行分类的方法和系统及介质 |
CN114510912B (zh) * | 2022-04-20 | 2022-07-08 | 佳瑛科技有限公司 | 基于分布式系统对电子表格进行分类的方法和系统及介质 |
CN114969258A (zh) * | 2022-05-27 | 2022-08-30 | 北京百度网讯科技有限公司 | 表格的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Vector of locally and adaptively aggregated descriptors for image feature representation | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN104239553A (zh) | 一种基于Map-Reduce框架的实体识别方法 | |
Li et al. | Fuzzy based affinity learning for spectral clustering | |
Casalino et al. | Incremental adaptive semi-supervised fuzzy clustering for data stream classification | |
CN113553326A (zh) | 电子表格数据处理方法、装置、计算机设备和存储介质 | |
Guo et al. | Unsupervised discriminative feature representation via adversarial auto-encoder | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
Chrysouli et al. | Spectral clustering and semi-supervised learning using evolving similarity graphs | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
Wang et al. | SpecVAT: Enhanced visual cluster analysis | |
Xue et al. | Discriminant error correcting output codes based on spectral clustering | |
CN116186298A (zh) | 信息检索方法和装置 | |
CN111488400A (zh) | 数据分类方法、装置和计算机可读存储介质 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
Wei et al. | Salient object detection based on weighted hypergraph and random walk | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |