CN110516048A - pdf文档中表格数据的提取方法、设备和存储介质 - Google Patents
pdf文档中表格数据的提取方法、设备和存储介质 Download PDFInfo
- Publication number
- CN110516048A CN110516048A CN201910821962.6A CN201910821962A CN110516048A CN 110516048 A CN110516048 A CN 110516048A CN 201910821962 A CN201910821962 A CN 201910821962A CN 110516048 A CN110516048 A CN 110516048A
- Authority
- CN
- China
- Prior art keywords
- gauge outfit
- keyword
- data
- pdf document
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008859 change Effects 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 8
- 238000011109 contamination Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 description 7
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036407 pain Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种pdf文档中表格数据的提取方法、设备和存储介质,所述方法包括:从pdf文档中提取表格信息;在所述表格信息中,查找表头关键词,根据表头关键词的权重或者组合,定位一个表格的表头所在行;从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式,根据数据格式的改变,定位所述表格的表尾所在行;根据所述表格的表头和表尾,获取所述表格的数据信息。与现有技术相比,本发明的pdf文档中表格数据的提取方法,可以自动批量的提取pdf表格中的数据,解决了耗时,耗人力的问题,提取结果误差小,提取的数据准确性高。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种pdf文档中表格数据的提取方法、设备和存储介质。
背景技术
随着数字化,信息化的高速发展,从各类非结构化文档中提取数据已经成了令很多人头疼的事情。
如果你尝试从大量的pdf文件中寻找某种格式的报表,你会发现这是一种非常耗时,而且费眼的事情。如果再想把大量的pdf文件中表格里面的内容存入数据库,那更是一个浩大的工程,并且很容易出错。
发明内容
本发明的目的在于提供一种pdf文档中表格数据的提取方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种pdf文档中表格数据的提取方法,所述方法包括:
从pdf文档中提取表格信息;
在所述表格信息中,查找表头关键词,根据表头关键词的权重或者组合,定位一个表格的表头所在行;
从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式,根据数据格式的改变,定位所述表格的表尾所在行;
根据所述表格的表头和表尾,获取所述表格的数据信息。
作为本发明一实施方式的进一步改进,所述方法还包括:
丢弃所述表格中不存在表头关键词的列。
作为本发明一实施方式的进一步改进,所述“在所述表格信息中,查找表头关键词,根据表头关键词的权重,定位一个表格的表头所在行”具体包括:
在所述表格信息的某一行中,查找到一个或者多个表头关键词;
获取所述一个或者多个表头关键词的权重,计算所述一个或者多个表头关键词的总体权重;
若所述总体权重超过权重阈值,定位所述表头关键词所在的行为所述表格的表头所在行。
作为本发明一实施方式的进一步改进,所述“获取每个表头关键词的权重”具体包括:
获取历史pdf文档中表格的表头关键词及其词频;
通过所述词频计算所述表头关键词的权重,得到表头关键词权重列表;
查找所述表头关键词权重列表,获取每个表头关键词的权重。
作为本发明一实施方式的进一步改进,所述“在所述表格信息中,查找表头关键词,根据表头关键词的组合,定位一个表格的表头所在行”具体包括:
在所述表格信息的某一行中,查找到多个表头关键词;
判断所述多个表头关键词是否有组合关键词,若是,定位所述多个表头关键词所在的行为所述表格的表头所在行。
作为本发明一实施方式的进一步改进,所述“判断所述多个表头关键词是否有组合关键词”具体包括:
获取历史pdf文档中表格的表头关键词的组合,得到表头组合关键词列表;
判断所述多个表头关键词是否有所述表头组合关键词列表中的组合关键词。
作为本发明一实施方式的进一步改进,所述“从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式,根据数据格式的改变,定位所述表格的表尾所在行”具体包括:
如果出现某行的数据格式不同于上一行的,定位所述上一行为表格的表尾所在行。
作为本发明一实施方式的进一步改进,所述方法还包括:
检查所述表格的数据信息是否符合规范,若是,将所述数据信息存入数据库。
为实现上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述pdf文档中表格数据的提取方法中的步骤。
为实现上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任意一项所述pdf文档中表格数据的提取方法中的步骤。
与现有技术相比,本发明的pdf文档中表格数据的提取方法,可以自动批量的提取pdf表格中的数据,解决了耗时,耗人力的问题,提取结果误差小,提取的数据准确性高。
附图说明
图1是本发明pdf文档中表格数据的提取方法的流程示意图。
图2是图1的步骤2的一个实施方式的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明的pdf文档中表格数据的提取方法包括:
步骤S1:从pdf文档中提取表格信息。
PDF诞生自Camelot项目。目的是创建一个通用的文档交流格式,以支持多种机器平台,操作系统和通信网络。其目标是使文档能够在任何显示器上可视,在任何现代打印机上可打印。PDF基于PostScript(一种页面描述语言)。该语言解决了在任意地方显示和打印的问题。PDF包含了文档“在任意地方可视和打印”所需的组件。比如,字符、字体、图表、图片等。
一个PDF文档包含许多放置文字(或其他组件)的指令。这些指令使用以页面左下角为原点的x、y坐标放置页面元素。一个单词通过将几个字符紧凑的放置在一起来模拟。同样的,空白通过使字符间隔更大来模拟。那怎样模拟一个表格呢?通过把字符摆放得跟一个电子表格一样来模拟。
PDF中没有一个内部的表示方式来表示一个表格。这使得表格数据很难被抽取出来做分析。不幸的是很多开放的数据是存储在pdf格式的文件中的。但是PDF格式在设计上并没有很好的支持表格数据。但是第三方开源工具tabula或者Camelot等能够从pdf文件中提取表格数据。
本发明优选第三方开源工具tabula将pdf文件中所有的表格信息都提取出来,汇总在一起。因此所有的表格信息中,包括一张或者多张表格。下表1为一张表格的一个例子:
表1
步骤S2:在所述表格信息中,查找表头关键词,根据表头关键词的权重或者组合,定位一个表格的表头所在行。
在此步骤中,通过事先分析历史pdf文档中表格的表头都有哪些关键词,以及这些关键词出现的频率,即词频,通过词频计算表头关键词的权重,汇总成表头关键词权重列表。表头关键词权重列表可以是:[{“客户”,25%},{“销售金额”,18%},{“占比”,11%}…]。然后在提取的表格信息中查找表头关键词,根据表头关键词的权重,定位一个表格的表头所在行。由于pdf中有些表格比较特殊,采用表头关键词权重定位表头,可以提高定位的准确性。
如图2所示,具体步骤包括如下:
步骤S21:在所述表格信息的某一行中,查找到一个或者多个表头关键词;
参见表1所示,搜索表格信息,定位到具有“序号、客户、销售金额,年度销售占比,是否存在关联关系”的这一行,找到表头关键词“客户”、“销售金额”和“占比”。
步骤S22:获取所述一个或者多个表头关键词的权重,计算所述一个或者多个表头关键词的总体权重;
总体权重即所述一个或者多个表头关键词的权重之和。通过查找表头关键词权重列表,可以获取每个表头关键词的权重,将所有的这一个或者多个表头关键词的权重相加,即得到总体权重。
步骤S23:若所述总体权重超过权重阈值,定位所述表头关键词所在的行为所述表格的表头所在行。
由于表头关键词也可能出现表头以外的地方,因此需要设定一个权重阈值来界定表头。权重阈值的设定过程可以是:通过历史数据给出一个初始权重阈值,然后通过提取的表头的准确率,再对此初始权重阈值进行修正。
通过以上步骤,就定位到一个表格的表头所在行。
另外,有些表头关键词是组合出现的,因此,可以通过事先分析历史pdf文档中表格的表头都有哪些组合关键词,得到表头组合关键词列表。例如表头组合关键词列表可以是:[{供应商名称,采购金额,占比,关联关系},{客户,金额,占比},{单位名称,营业收入,本期发生额,与本公司关系}…]。然后在提取的表格信息中查找多个表头关键词,判断多个表头关键词是否有表头组合关键词,若有,定位一个表格的表头所在行。具体步骤包括如下:
步骤S24:在所述表格信息的某一行中,查找到多个表头关键词;
步骤S25:判断所述多个表头关键词是否有组合关键词,若是,定位所述多个表头关键词所在的行为所述表格的表头所在行;
通过以上步骤,定位到一个表格的表头所在行。
步骤S3:从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式,根据数据格式的改变,定位所述表格的表尾所在行。
如果出现某行的数据格式不同于上一行的,定位所述上一行为表格的表尾所在行。参见表1所示,第2到6行的数据格式相同,第7行数据格式与第6行不同,定义第6行为表尾所在行。这里需要说明的是,第7行的总计的内容不是我们所需要的,因此会被丢弃。
进一步的,为了增加准确性,如果出现某行的数据格式不同于上一行的,判断这行的数据中是否包含表尾关键词(表尾关键词可以是“总计”、“合计”或者“共计”等),若是,则所述上一行为所述表格的表尾所在行;若否,再判断这行的下一行的数据格式与这行的上一行数据格式是否相同(此处主要是针对出现在表中间的合并单元格),若不同,所述上一行为所述表格的表尾所在行,若相同,代表中间出现了合并单元格,按照上述方法,继续定位表尾所在行。另外有些表格中或出现“-”,当发现数据格式的改变是由于“-”的出现导致的,不用管这一行,继续往下判断,定位表尾所在行。
步骤S4:根据所述表格的表头和表尾,获取所述表格的数据信息。
从所述表头的下一行开始遍历所述表格直至表尾所在行,提取所述表格的每行和每列的数据。
以上步骤为一个表格的数据信息的获取过程,若存在多个表格,循环上述步骤,直到将所有表格的数据信息提取完成。本发明的pdf文档中表格数据的提取方法,可以自动批量的提取pdf表格中的数据,解决了耗时,耗人力的问题,提取结果误差小,提取的数据准确性高。
在一个优选的实施方式中,所述方法还包括:
丢弃所述表格中不存在表头关键词的列。
需要说明的是,每个表头关键词都代表这个关键词所在列的数据是我们所需要的,因此,对于不存在表头关键词的列中的数据,是可以丢弃掉的。
在一个优选的实施方式中,所述方法还包括:
检查所述表格的数据信息是否符合规范,若是,将所述数据信息存入数据库。
由于每个表头关键词都对应有相应的数据格式,比如“客户”对应的是公司或人的名称,“销售金额”对应的是数字,“占比”应该包含“%”(如果不包含%,格式为数字)。检查表格的数据信息是否符合以上的规范,如果符合,将所述数据信息存入数据库。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述pdf文档中表格数据的提取方法中的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述pdf文档中表格数据的提取方法中的步骤。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种pdf文档中表格数据的提取方法,其特征在于,所述方法包括:
从pdf文档中提取表格信息;
在所述表格信息中,查找表头关键词,根据表头关键词的权重或者组合,定位一个表格的表头所在行;
从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式,根据数据格式的改变,定位所述表格的表尾所在行;
根据所述表格的表头和表尾,获取所述表格的数据信息。
2.根据权利要求1所述的pdf文档中表格数据的提取方法,其特征在于,所述方法还包括:
丢弃所述表格中不存在表头关键词的列。
3.根据权利要求1所述的pdf文档中表格数据的提取方法,其特征在于,所述“在所述表格信息中,查找表头关键词,根据表头关键词的权重,定位一个表格的表头所在行”具体包括:
在所述表格信息的某一行中,查找到一个或者多个表头关键词;
获取所述一个或者多个表头关键词的权重,计算所述一个或者多个表头关键词的总体权重;
若所述总体权重超过权重阈值,定位所述表头关键词所在的行为所述表格的表头所在行。
4.根据权利要求3所述的pdf文档中表格数据的提取方法,其特征在于,所述“获取每个表头关键词的权重”具体包括:
获取历史pdf文档中表格的表头关键词及其词频;
通过所述词频计算所述表头关键词的权重,得到表头关键词权重列表;
查找所述表头关键词权重列表,获取每个表头关键词的权重。
5.根据权利要求1所述的pdf文档中表格数据的提取方法,其特征在于,所述“在所述表格信息中,查找表头关键词,根据表头关键词的组合,定位一个表格的表头所在行”具体包括:
在所述表格信息的某一行中,查找到多个表头关键词;
判断所述多个表头关键词是否有组合关键词,若是,定位所述多个表头关键词所在的行为所述表格的表头所在行。
6.根据权利要求5所述的pdf文档中表格数据的提取方法,其特征在于,所述“判断所述多个表头关键词是否有组合关键词”具体包括:
获取历史pdf文档中表格的表头关键词的组合,得到表头组合关键词列表;
判断所述多个表头关键词是否有所述表头组合关键词列表中的组合关键词。
7.根据权利要求1所述的pdf文档中表格数据的提取方法,其特征在于,所述“从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式,根据数据格式的改变,定位所述表格的表尾所在行”具体包括:
如果出现某行的数据格式不同于上一行的,定位所述上一行为表格的表尾所在行。
8.根据权利要求1所述pdf文档中表格数据的提取方法,其特征在于,所述方法还包括:
检查所述表格的数据信息是否符合规范,若是,将所述数据信息存入数据库。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述pdf文档中表格数据的提取方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述pdf文档中表格数据的提取方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910821962.6A CN110516048A (zh) | 2019-09-02 | 2019-09-02 | pdf文档中表格数据的提取方法、设备和存储介质 |
PCT/CN2019/116528 WO2021042507A1 (zh) | 2019-09-02 | 2019-11-08 | pdf文档中表格数据的提取方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910821962.6A CN110516048A (zh) | 2019-09-02 | 2019-09-02 | pdf文档中表格数据的提取方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516048A true CN110516048A (zh) | 2019-11-29 |
Family
ID=68629147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910821962.6A Pending CN110516048A (zh) | 2019-09-02 | 2019-09-02 | pdf文档中表格数据的提取方法、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110516048A (zh) |
WO (1) | WO2021042507A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027285A (zh) * | 2019-12-17 | 2020-04-17 | 南京上游软件有限公司 | 一种从pdf格式订单中自动提取订单信息的方法及系统 |
CN111104783A (zh) * | 2019-12-17 | 2020-05-05 | 珠海格力电器股份有限公司 | 数据验证方法、装置、电子设备及存储介质 |
CN112434496A (zh) * | 2020-12-11 | 2021-03-02 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
CN112579727A (zh) * | 2020-12-16 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034633A (zh) * | 2011-09-30 | 2013-04-10 | 国际商业机器公司 | 生成扩展的搜索结果页面摘要的方法及装置 |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
CN105518667A (zh) * | 2014-06-30 | 2016-04-20 | 微软技术许可有限责任公司 | 理解供搜索的表格 |
US20170116172A1 (en) * | 2015-10-22 | 2017-04-27 | International Business Machines Corporation | Tabular data compilation |
CN106709032A (zh) * | 2016-12-29 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CN107748803A (zh) * | 2017-11-20 | 2018-03-02 | 中国运载火箭技术研究院 | 一种空间态势特征事件数据库设计方法 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589841B (zh) * | 2016-01-15 | 2018-03-30 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
US10303938B2 (en) * | 2016-12-29 | 2019-05-28 | Factset Research Systems Inc | Identifying a structure presented in portable document format (PDF) |
CN108470021B (zh) * | 2018-03-26 | 2022-06-03 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN108734089B (zh) * | 2018-04-02 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN108595402A (zh) * | 2018-04-28 | 2018-09-28 | 西安极数宝数据服务有限公司 | 一种提取pdf表格信息的系统 |
-
2019
- 2019-09-02 CN CN201910821962.6A patent/CN110516048A/zh active Pending
- 2019-11-08 WO PCT/CN2019/116528 patent/WO2021042507A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034633A (zh) * | 2011-09-30 | 2013-04-10 | 国际商业机器公司 | 生成扩展的搜索结果页面摘要的方法及装置 |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
CN105518667A (zh) * | 2014-06-30 | 2016-04-20 | 微软技术许可有限责任公司 | 理解供搜索的表格 |
US20170116172A1 (en) * | 2015-10-22 | 2017-04-27 | International Business Machines Corporation | Tabular data compilation |
CN106709032A (zh) * | 2016-12-29 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CN107748803A (zh) * | 2017-11-20 | 2018-03-02 | 中国运载火箭技术研究院 | 一种空间态势特征事件数据库设计方法 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
Non-Patent Citations (1)
Title |
---|
王凯等: "一种基于向量空间模型的表格检索算法", 《现代图书情报技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027285A (zh) * | 2019-12-17 | 2020-04-17 | 南京上游软件有限公司 | 一种从pdf格式订单中自动提取订单信息的方法及系统 |
CN111104783A (zh) * | 2019-12-17 | 2020-05-05 | 珠海格力电器股份有限公司 | 数据验证方法、装置、电子设备及存储介质 |
CN111027285B (zh) * | 2019-12-17 | 2023-06-16 | 南京上游软件有限公司 | 一种从pdf格式订单中自动提取订单信息的方法及系统 |
CN112434496A (zh) * | 2020-12-11 | 2021-03-02 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
CN112434496B (zh) * | 2020-12-11 | 2021-06-22 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
CN112579727A (zh) * | 2020-12-16 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN112579727B (zh) * | 2020-12-16 | 2022-03-22 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021042507A1 (zh) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516048A (zh) | pdf文档中表格数据的提取方法、设备和存储介质 | |
CN103593336B (zh) | 一种基于语义分析的知识推送系统及方法 | |
CN111125343B (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN110163478A (zh) | 一种合同条款的风险审查方法及装置 | |
CN109582704A (zh) | 招聘信息和求职简历匹配的方法 | |
CN100444591C (zh) | 获取网页关键字的方法及其应用系统 | |
CN106446072B (zh) | 网页内容的处理方法和装置 | |
CN112035653A (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN109783812B (zh) | 基于自注意力机制的中文命名实体识别方法、系统、装置 | |
CN102073725A (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
US8773712B2 (en) | Repurposing a word processing document to save paper and ink | |
CN110413786A (zh) | 基于网页文本分类的数据处理方法、智能终端及存储介质 | |
CN110096626A (zh) | 合同文本数据的处理方法、装置、设备及存储介质 | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查系统 | |
CN109710725A (zh) | 一种基于文本分类的中文表格列标签恢复方法和系统 | |
CN110516036A (zh) | 法律文书信息提取方法、装置、计算机设备及存储介质 | |
Verma et al. | A novel approach for text summarization using optimal combination of sentence scoring methods | |
CN106030568A (zh) | 自然语言处理系统、自然语言处理方法、以及自然语言处理程序 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
CN101826102A (zh) | 一种图书关键字自动生成的方法 | |
CN110968661A (zh) | 事件抽取方法及系统、计算机可读存储介质及电子设备 | |
CN111898351B (zh) | 基于Aviator的Excel数据自动导入方法、装置、终端设备及存储介质 | |
CN110489514B (zh) | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191129 |
|
RJ01 | Rejection of invention patent application after publication |