CN110598194B - 一种非满格表格内容提取方法、装置及终端设备 - Google Patents
一种非满格表格内容提取方法、装置及终端设备 Download PDFInfo
- Publication number
- CN110598194B CN110598194B CN201910744823.8A CN201910744823A CN110598194B CN 110598194 B CN110598194 B CN 110598194B CN 201910744823 A CN201910744823 A CN 201910744823A CN 110598194 B CN110598194 B CN 110598194B
- Authority
- CN
- China
- Prior art keywords
- cell
- keyword
- matched
- title
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000010521 absorption reaction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009960 carding Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种非满格表格内容提取方法、装置及终端设备。所述方法包括:获取原始表格,所述原始表格为非满格表格;对所述原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格;依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记;若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充。通过本发明实施例,将非满格表格规整化处理为满格表格,实现了将每个单元格的数据准确读取出来,并且标记了标题单元格和内容单元格。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种非满格表格内容提取方法、装置及终端设备。
背景技术
目前的表格数据解析,对于典型的表格,即满格表格可以将表格中每个单元格的内容分别读出来。但是对于存在合并单元格(合并单元格可以为合并行、合并列、以及同时包括合并行与合并列)的表格,即非满格表格,虽然可以通过读取非满格表格获得满格表格,但是却无法成功读取出满格表格中每个单元格的内容,因为在进行了合并操作的合并单元格存在内容时,读取的结果中,除了合并单元格中左上角或右上角(取决于当前的视图方向)的单元格中的内容被保留,合并单元格的其余单元格的数据为空,即被删除。
另外,在无法预知表格的形式的时候,无从确定哪一个单元格是表的标题,哪一个单元格是表的内容,无法准确地进行数据梳理从而导致建立的数据库准确度不高。
发明内容
有鉴于此,本发明实施例提供了一种非满格表格内容提取方法、装置及终端设备,以解决现有的无法完全读取非满格表格各单元格的内容,无法建立精准度高的数据库的技术问题。
本发明实施例的第一方面提供了一种非满格表格内容提取方法,包括:
获取原始表格,所述原始表格为非满格表格;
对所述原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格;
依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记;
若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充。
本发明实施例的第二方面提供了一种非满格表格内容提取装置,包括:
获取模块,用于获取原始表格,所述原始表格为非满格表格;
读取模块,用于对所述原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格;
判定模块,用于依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记;
填充模块,用于若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充。
本发明实施例的第三方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面所述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:通过本发明实施例,将非满格表格规整化处理为满格表格,实现了将每个单元格的数据准确读取出来,并且标记了标题单元格和内容单元格,提高了后续数据梳理的准确率,为帮助建立更精准的数据库打好了基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种非满格表格内容提取方法的示意流程图;
图2为本发明实施例中另一种非满格表格内容提取方法的示意流程图
图3为本发明实施例中另一种非满格表格内容提取方法的示意流程图;
图4为本发明实施例中另一种非满格表格内容提取方法的示意流程图;
图5为本发明实施例中一种非满格表格内容提取装置的结构示意图;
图6为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的一种非满格表格内容提取方法的实现流程,该方法流程包括步骤S101至S104。该方法适用于需要对非满格表格进行数据读取的情形。该方法由非满格表格内容提取装置执行,所述非满格表格内容提取装置配置于终端设备,可由软件和/或硬件实现。各步骤的具体实现原理如下。
S101,获取原始表格,所述原始表格为非满格表格。
其中,终端设备获取原始表格,原始表格为非满格表格,然后对非满格表格进行数据提取,以完成将非满格表格规整化处理成满格表格的过程。
需要说明的是,非满格表格为包括合并单元格的表格。合并单元格可以为合并行,和/或和并列,和/或同时包括合并行与合并列的合并单元格。非满格表格是与满格表格相对的概念。满格表格是不包括合并单元格的表格。
在本发明实施例中,因为仅对非满格表格进行处理,因此只要求原始表格为非满格表格即可,并不限制非满格表格的样式和内容。
示例性地,原始表格为如下表1所示:
表1:
S102,对原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格。
其中,利用POI技术对原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格。也就是说,通过POI技术读取非满格表格获得满格表格,并确定出满格表格中属于同一个合并单元格的各单元格。需要说明的是,若读取前非满格表格中的合并单元格存在数据,那么读取结果中,对应合并单元格中左上角或右上角的单元格内的数据被保留,其余单元格的数据为空。
在本实施例中,POI为Apache POI,是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。
在利用POI技术读取原始表格时,判定单元格是否属于合并单元格并确定合并单元格包括的各单元格。例如,通过getMergedRegion()获得合并区域,即合并单元格,通过getFirstRow(),getLastRow(),getFirstColumn(),以及getLastColumn(),分别获得合并单元格的起始行,结束行,起始列,以及结束列,即确定每个合并单元格的firstRow,lastRow,firstCol,以及lastCol。
可以理解的是,通过POI技术读取原始表格,还可以获得合并单元格的数量,例如通过getNumMergedRegions()获得合并单元格的数量等,本发明并不排除这些情况。
示例性地,延续步骤101的示例,利用POI技术读取所述原始表格,如表1,得到对应的满格表格为如下表2所示:
表2:
序号 | 股东名称 | 吸收合并前 | null | 吸收合并后 | null |
null | null | 出资额 | 股权比例 | 出资额 | 股权比例 |
1 | XXX1 | 800 | 33.34% | 817 | 33.34% |
2 | XXX2 | 800 | 33.33% | 816.5 | 33.33% |
3 | XXX3 | 800 | 33.33% | 816.5 | 33.33% |
null | 合计 | 2400 | 100% | 2450 | 100% |
其中,满格表格中读取结果为“null”的单元格,数据为空。
利用POI技术读取原始表格获得满格表格,将会确定第一行第一列的单元格和第二行第一列的单元格属于同一个合并列的合并单元格;第一行第二列的单元格和第二行第二列的单元格属于同一个合并列的合并单元格;第一行第三列的单元格和第一行第四列的单元格属于同一个合并行的合并单元格;第一行第五列的单元格和第一行第六列的单元格属于同一个合并行的合并单元格。
S103,依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记。
其中,经过步骤102之后,将非满格表格读取成满格表格,并且读取出了各个单元格的数据,即使其中包括数据为空的单元格。在此之后,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记。
在本发明实施例中,通过对单元格标记为标题单元格或内容单元格,从而将标题单元格与内容单元格进行了区分,对后续数据梳理提供了准确的数据基础,提高了基于表格数据来建立数据库的准确度。
可选地,作为本发明一实施例,步骤103中判定数据不为空的单元格是属于标题单元格,还是属于内容单元格的过程,如图2所示,包括如下步骤201至203。
S201,将单元格的数据进行分词处理得到若干个待匹配关键词,并筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词。
其中,标题关键词库为由预先提取多个表格的标题单元格的关键词组成的词库。
本发明实施例中,可以使用TF-IDF算法从多个,例如100个待提取的表格中,提取表格的标题关键词库。
示例性地,使用TF-IDF算法从多个表格中提取出预设的标题关键词库为由金额、序号、成立、时间、注册资本、数量等关键词组成的词库。
将单元格的数据进行分词处理得到若干个待匹配关键词,并筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词。其中,本发明实施例不限制分词处理的具体方式,现有的分词处理方式均可用于实现本发明。
示例性地,当非空单元格的数据为“总共金额”时,利用THULAC分词器进行分词处理,得到两个关键词“总共”和“金额”,筛选出这两个关键词中存在于标题关键词库中相似关键词为“金额”,不同关键词为“总共”。
可选地,作为本发明一实施例,S201中,筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词,包括:
从标题关键词库中获取未被匹配过的目标关键词,将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,继续获取下一个未被匹配过的目标关键词并将目标关键词与待匹配关键词进行匹配得到匹配度,直至标题关键词库中不存在未被匹配过的目标关键词,将匹配度最高且满足预设条件的目标关键词作为相似关键词。
其中,针对每个待匹配关键词而言,将标题关键词库中的每个关键词与待匹配关键词进行匹配得到匹配度,将匹配度最高且满足预设条件的目标关键词作为相似关键词。预设条件可以为匹配度大于或等于预设阈值,本领域技术人员知晓预设阈值为经验值,可以根据需求设置。例如若将相似度表征匹配度时,预设阈值可以为0.8或0.9,也可以为两者组成的数值区间中的任一数值,也可以为比0.9更大的小于或等于1的数,此处仅为示例性描述,本发明对此不作具体限定。
可选地,如图3所示,将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,包括如下步骤301至302。
S301,预先制作一个含有海量字的词典作为预设的字集合,字集合中的每个字都用一个表征其在字集合中位置的N维向量表示,N为字集合中字的数量。
其中,在这个字集合中各个字依次排列,具有各自对应的在字集合中的排列位置。本发明实施例预先收集大量的文章,并对这些文章中包含的字进行统计,计算出各个字对应的出现频次,最后将这些文章中包含的字按照出现频次由大到小的排列顺序存入该字典中,生成本发明实施例中的字集合。示例性地,假设字集合中包含6个字,需要说明的是,真正使用的字集合中的字远远不止6个,此处仅为示例性说明,则字集合中排在第一位的字用向量[1,0,0,0,0,0]表示,排在第二位的字用向量[0,1,0,0,0,0]表示,以此类推,字集合中的每个字都用一个六维向量表示。
S302,将目标关键词与待匹配关键词均拆分成若干个字,并通过查找每个字的N维向量,组合形成目标关键词对应的目标关键词向量和待匹配关键词的待匹配关键词向量,计算目标关键词向量和待匹配关键词向量的向量相似度,将向量相似度作为目标关键词与待匹配关键词的匹配度。
可以理解地,当建立好字集合之后,将每个目标关键词拆分成一个个目标关键字,并通过查找每个目标关键字的N维向量,组合形成目标关键词向量;同样的处理方式,将每个待匹配关键词拆分成一个个待匹配关键字,并通过查找每个待匹配关键字的N维向量,组合形成待匹配关键词向量。然后,计算目标关键词向量和待匹配关键词向量的相似度,将相似度作为目标关键词与待匹配关键词的匹配度。
可选地,向量相似度的计算公式可以为:
其中,目标关键词向量为A,元素组成为Ai;待匹配关键词向量为B,元素组成为Bi。此外,在本发明其他实施例中,向量相似度的计算方式还可以采用现有技术中的相似度的计算方式,本发明对此不作具体限定。
示例性的,若目标关键词拆分成两个目标关键字,查找两个关键字的N维向量分别为[1,0,0,0,0,0]和[0,1,0,0,0,0],组合形成目标关键词向量为[1,1,0,0,0,0];若待匹配关键词拆分成2个待匹配关键字,查找两个待匹配关键字的N维向量分别为[0,1,0,0,0,0]和[0,0,1,0,0,0],组合形成待匹配关键词向量为[0,1,1,0,0,0]。计算[1,1,0,0,0,0]和[0,1,1,0,0,0]的向量相似度为0.5。
S202,计算由若干个待匹配关键词组成的第一关键词集合相对于由相似关键词组成的第二关键词集合的相似度。
其中,如图4所示,步骤202包括如下步骤401至403。
S401,将若干个待匹配关键词组成第一关键词集合;将相似关键词组成第二关键词集合;将若干个待匹配关键词与相似关键词组成目标集合。
S402,计算所述第一关键词集合相对于所述目标集合的第一词频向量,计算所述第二关键词集合相对于所述目标集合的第二词频向量。
S403,计算所述第一词频向量和第二词频向量的相似度,作为所述第一关键词集合相对于所述第二关键词集合的相似度。
示例性地,若干个待匹配关键词组成的第一关键词集合{总共,金额},相似关键词组成的第二关键词集合为{金额};待匹配关键词{总共,金额}和相似关键词{金额}组成的目标集合为{总共,金额};
计算第一关键词集合相对于目标集合的第一词频向量为A=[1,1],计算第二键词集合相对于目标集合的第二词频向量为B=[0,1];计算两个词频向量A和B的相似度为0.707,如下:
S203,若相似度大于预设阈值,则所述单元格为标题单元格;否则,所述单元格为内容单元格。
可以理解的是,步骤203中预设阈值为经验值,可以根据需求设置。例如预设阈值可以为0.8或0.9,也可以为两者组成的数值区间中的任一数值,也可以为比0.8更小的数,也可以为比0.9更大的小于或等于1的数,此处仅为示例性描述,本发明对此不作具体限定。
本发明实施例中提供了一种定量的方式准确地区分单元格是标题单元格,还是内容单元格,为后续数据库的建立提供了准确的数据基础。
S104,若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充。
其中,步骤102中确定了哪些单元格属于同一个合并单元格,步骤103中确定了各个单元格是属于标题单元格还是内容单元格,因此,在步骤104中,当合并单元格中包括标题单元格的情形下,将属于该合并单元格的各单元格均用标题单元格的数据进行填充。也就是说,对于某个合并单元格中数据不为空的单元格,若该单元格为标题单元格的情形下,将该标题单元格的数据填充至属于同一个合并单元格中数据为空的单元格中。
需要说明的是,本申请实施例中,仅对包括标题单元格的合并单元格的数据进行填充,即当合并单元格中包括标题单元格的情形下,将标题单元格填充至合并单元格包括的其余单元格中。而通常情况下,标题单元格和内容单元格不会属于同一个合并单元格,多个内容单元格也不会属于同一个合并单元格,因而本申请实施例中,合并单元格仅包括内容单元格的情况下,不对其余各单元格数据进行填充,因为有可能是数据上传错误所致,避免进一步填充数据导致后续建立数据库出现更大的偏差。
示例性地,步骤103确定“序号”、“股东名称”、“吸收合并前”和“吸收合并后”均为标题单元格,且确定了“序号”和“股东名称”属于合并行的合并单元格;“吸收合并前”和“吸收合并后”属于合并列的合并单元格,将拆分后的各单元格分别用对应标题单元格填充,如下:
序号 | 股东名称 | 吸收合并前 | 吸收合并前 | 吸收合并后 | 吸收合并后 |
序号 | 股东名称 | 出资额 | 股权比例 | 出资额 | 股权比例 |
1 | XXX1 | 800 | 33.34% | 817 | 33.34% |
2 | XXX2 | 800 | 33.33% | 816.5 | 33.33% |
3 | XXX3 | 800 | 33.33% | 816.5 | 33.33% |
合计 | 2400 | 100% | 2450 | 100% |
至此,完成了合并表格转换成满格表格的过程。
综上所述,通过本发明实施例,将非满格表格规整化处理为满格表格,实现了将每个单元格的数据准确读取出来,并且标记了标题单元格和内容单元格,提高了后续数据梳理的准确率,为帮助建立更精准的数据库打好了基础。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种非满格表格内容提取方法,图5示出了本发明实施例提供的一种非满格表格内容提取装置的结构示意图,如图5所示,所述非满格表格内容提取装置包括:
获取模块51,用于获取原始表格,所述原始表格为非满格表格;
读取模块52,用于对所述原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格;
判定模块53,用于依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记;
填充模块54,用于若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用标题单元格的数据进行填充。
可选地,所述判定数据不为空的单元格是属于标题单元格,还是内容单元格,包括:
将单元格的数据进行分词处理得到若干个待匹配关键词,并筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词;
计算由若干个待匹配关键词组成的第一关键词集合相对于由相似关键词组成的第二关键词集合的相似度;
若相似度大于预设阈值,则所述单元格为标题单元格;否则,所述单元格为内容单元格。
可选地,所述计算由若干个待匹配关键词组成的第一关键词集合相对于由相似关键词组成的第二关键词集合的相似度,包括:
将若干个待匹配关键词组成第一关键词集合;将相似关键词组成第二关键词集合;将若干个待匹配关键词与相似关键词组成目标集合;
计算所述第一关键词集合相对于所述目标集合的第一词频向量,计算所述第二关键词集合相对于所述目标集合的第二词频向量;
计算所述第一词频向量和第二词频向量的相似度,作为所述第一关键词集合相对于所述第二关键词集合的相似度。
可选地,所述筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词,包括:
从标题关键词库中获取未被匹配过的目标关键词,将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,继续获取下一个未被匹配过的目标关键词并将目标关键词与待匹配关键词进行匹配得到匹配度,直至标题关键词库中不存在未被匹配过的目标关键词,将匹配度最高且满足预设条件的目标关键词作为相似关键词。
可选地,所述将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,包括:
预先制作一个含有海量字的词典作为预设的字集合,字集合中的每个字都用一个表征其在字集合中位置的N维向量表示,N为字集合中字的数量;
将目标关键词与待匹配关键词均拆分成若干个字,并通过查找每个字的N维向量,组合形成目标关键词对应的目标关键词向量和待匹配关键词的待匹配关键词向量,计算目标关键词向量和待匹配关键词向量的向量相似度,将向量相似度作为目标关键词与待匹配关键词的匹配度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的终端设备、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图6示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备6可以是本地终端设备,也可以是云端终端设备。该终端设备6可包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62。所述处理器60执行所述计算机可读指令62时实现上述各个非满格表格内容提取方法实施例的步骤,或者,所述处理器60执行所述计算机可读指令62时实现上述各虚拟装置实施例中各模块/单元的功能,例如图5所示模块501至504的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述终端设备6中的执行过程。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述终端设备6所需的其它指令和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,终端设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种非满格表格内容提取方法,其特征在于,包括:
获取原始表格,所述原始表格为非满格表格;
利用POI技术对所述原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格;
依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记;
若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充;
其中,所述判定数据不为空的单元格是属于标题单元格,还是内容单元格,包括:
将单元格的数据进行分词处理得到若干个待匹配关键词,并筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词;
计算由若干个待匹配关键词组成的第一关键词集合相对于由相似关键词组成的第二关键词集合的相似度;
若相似度大于预设阈值,则所述单元格为标题单元格;否则,所述单元格为内容单元格。
2.根据权利要求1所述的非满格表格内容提取方法,其特征在于,所述计算由若干个待匹配关键词组成的第一关键词集合相对于由相似关键词组成的第二关键词集合的相似度,包括:
将若干个待匹配关键词组成第一关键词集合;将相似关键词组成第二关键词集合;将若干个待匹配关键词与相似关键词组成目标集合;
计算所述第一关键词集合相对于所述目标集合的第一词频向量,计算所述第二关键词集合相对于所述目标集合的第二词频向量;
计算所述第一词频向量和第二词频向量的相似度,作为所述第一关键词集合相对于所述第二关键词集合的相似度。
3.根据权利要求1或2所述的非满格表格内容提取方法,其特征在于,所述筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词,包括:
从标题关键词库中获取未被匹配过的目标关键词,将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,继续获取下一个未被匹配过的目标关键词并将目标关键词与待匹配关键词进行匹配得到匹配度,直至标题关键词库中不存在未被匹配过的目标关键词,将匹配度最高且满足预设条件的目标关键词作为相似关键词。
4.根据权利要求3所述的非满格表格内容提取方法,其特征在于,所述将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,包括:
预先制作一个含有海量字的词典作为预设的字集合,字集合中的每个字都用一个表征其在字集合中位置的N维向量表示,N为字集合中字的数量;
将目标关键词与待匹配关键词均拆分成若干个字,并通过查找每个字的N维向量,组合形成目标关键词对应的目标关键词向量和待匹配关键词的待匹配关键词向量,计算目标关键词向量和待匹配关键词向量的向量相似度,将向量相似度作为目标关键词与待匹配关键词的匹配度。
5.一种非满格表格内容提取装置,其特征在于,包括:
获取模块,用于获取原始表格,所述原始表格为非满格表格;
读取模块,用于利用POI技术对所述原始表格进行读取,得到满格表格,并确定出属于同一个合并单元格的各单元格;
判定模块,用于依次从所述满格表格中获取各个单元格的数据,判定数据不为空的单元格是属于标题单元格,还是属于内容单元格,并将标题单元格和内容单元格进行标记;
填充模块,用于若所述合并单元格中包括标题单元格,则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充;
其中,所述判定数据不为空的单元格是属于标题单元格,还是内容单元格,包括:
将单元格的数据进行分词处理得到若干个待匹配关键词,并筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词;
计算由若干个待匹配关键词组成的第一关键词集合相对于由相似关键词组成的第二关键词集合的相似度;
若相似度大于预设阈值,则所述单元格为标题单元格;否则,所述单元格为内容单元格。
6.根据权利要求5所述的非满格表格内容提取装置,其特征在于,所述筛选出存在于预设的标题关键词库中的与待匹配关键词相似的相似关键词,包括:
从标题关键词库中获取未被匹配过的目标关键词,将目标关键词与分词处理后得到的待匹配关键词进行匹配得到匹配度,继续获取下一个未被匹配过的目标关键词并将目标关键词与待匹配关键词进行匹配得到匹配度,直至标题关键词库中不存在未被匹配过的目标关键词,将匹配度最高且满足预设条件的目标关键词作为相似关键词。
7.一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至4任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910744823.8A CN110598194B (zh) | 2019-08-09 | 2019-08-09 | 一种非满格表格内容提取方法、装置及终端设备 |
PCT/CN2019/118650 WO2021027162A1 (zh) | 2019-08-09 | 2019-11-15 | 一种非满格表格内容提取方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910744823.8A CN110598194B (zh) | 2019-08-09 | 2019-08-09 | 一种非满格表格内容提取方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598194A CN110598194A (zh) | 2019-12-20 |
CN110598194B true CN110598194B (zh) | 2024-05-07 |
Family
ID=68854267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910744823.8A Active CN110598194B (zh) | 2019-08-09 | 2019-08-09 | 一种非满格表格内容提取方法、装置及终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110598194B (zh) |
WO (1) | WO2021027162A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897884B (zh) * | 2020-07-20 | 2024-02-23 | 北京用友薪畴数字科技有限公司 | 数据关系信息显示方法、终端设备 |
CN112418180A (zh) * | 2020-12-11 | 2021-02-26 | 深圳前海微众银行股份有限公司 | 表格数据提取方法、装置、设备及计算机存储介质 |
CN113254627B (zh) * | 2021-04-16 | 2023-07-25 | 国网河北省电力有限公司经济技术研究院 | 数据读取方法、装置及终端 |
CN114581930B (zh) * | 2022-02-21 | 2024-08-30 | 深圳职业技术学院 | 一种基于pdf文档的表格信息提取方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777259A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 自适应抽取HTML Table标签中结构化信息的方法及装置 |
CN107992625A (zh) * | 2017-12-25 | 2018-05-04 | 湖南星汉数智科技有限公司 | 一种网页表格数据自动抽取方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8850306B2 (en) * | 2011-03-28 | 2014-09-30 | Microsoft Corporation | Techniques to create structured document templates using enhanced content controls |
CN106611024B (zh) * | 2015-10-27 | 2020-08-11 | 北京国双科技有限公司 | 文件合并方法和装置 |
CN107180019B (zh) * | 2016-03-11 | 2021-01-12 | 阿里巴巴集团控股有限公司 | 表格展示方法及装置 |
CN109710771B (zh) * | 2018-10-30 | 2020-10-09 | 北京百度网讯科技有限公司 | 表格信息提取方法、装置和存储介质 |
-
2019
- 2019-08-09 CN CN201910744823.8A patent/CN110598194B/zh active Active
- 2019-11-15 WO PCT/CN2019/118650 patent/WO2021027162A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777259A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 自适应抽取HTML Table标签中结构化信息的方法及装置 |
CN107992625A (zh) * | 2017-12-25 | 2018-05-04 | 湖南星汉数智科技有限公司 | 一种网页表格数据自动抽取方法及装置 |
Non-Patent Citations (1)
Title |
---|
吕洪升 等.特殊布局数据的排序及VBA程序的编制和应用.2010 The 3rd International Conference on Power Electronics and Intelligent Transportation System (PEITS 2010).2010,第460-463页. * |
Also Published As
Publication number | Publication date |
---|---|
WO2021027162A1 (zh) | 2021-02-18 |
CN110598194A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598194B (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN111339427A (zh) | 一种图书信息推荐方法、装置、系统及存储介质 | |
CN111144282B (zh) | 表格识别方法和装置、计算机可读存储介质 | |
CN108363729B (zh) | 一种字符串比较方法、装置、终端设备及存储介质 | |
CN111159184B (zh) | 元数据追溯方法、装置及服务器 | |
CN112329460B (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113360711B (zh) | 视频理解任务的模型训练和执行方法、装置、设备及介质 | |
CN113535986B (zh) | 一种应用于医学知识图谱的数据融合方法及装置 | |
CN111475736A (zh) | 社区挖掘的方法、装置和服务器 | |
CN110895533A (zh) | 一种表单映射方法、装置、计算机设备和存储介质 | |
CN111639493A (zh) | 一种地址信息标准化方法、装置、设备及可读存储介质 | |
CN109299467A (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN118172785A (zh) | 文档信息抽取方法、装置、设备、存储介质和程序产品 | |
CN111597336B (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN117173725A (zh) | 表格信息处理方法、装置、计算机设备和存储介质 | |
CN117423124A (zh) | 基于表格图像的表格数据处理方法和装置、设备及介质 | |
CN107909054A (zh) | 图片文本的相似度评价方法及装置 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN112989040B (zh) | 一种对话文本标注方法、装置、电子设备及存储介质 | |
CN111310442A (zh) | 形近字纠错语料挖掘方法、纠错方法、设备及存储介质 | |
CN111026879A (zh) | 多维度价值导向的针对意图的面向对象数值计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |