CN110659346A - 表格提取方法、装置、终端及计算机可读存储介质 - Google Patents
表格提取方法、装置、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110659346A CN110659346A CN201910783743.3A CN201910783743A CN110659346A CN 110659346 A CN110659346 A CN 110659346A CN 201910783743 A CN201910783743 A CN 201910783743A CN 110659346 A CN110659346 A CN 110659346A
- Authority
- CN
- China
- Prior art keywords
- keywords
- query
- keyword
- similarity
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000005260 corrosion Methods 0.000 claims description 5
- 230000007797 corrosion Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种表格提取方法,包括获取查询请求以及待提取的word文档;根据所述查询请求获得对应的查询关键词;识别所述word文档,获得word文档中各表格对应的表格关键词;将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;提取所述相似度最高的预设个数的表格关键词对应的表格。本发明还提供一种表格提取装置、终端及计算机可读存储介质。本发明提出的技术方案基于数据查询对word中的表格进行提取,能够直接在word文档中提取到需要的目标表格。
Description
技术领域
本发明涉及数据提取技术领域,尤其涉及一种表格提取方法、装置、终端及计算机可读存储介质。
背景技术
目前,通常使用POI(Apache POI)的Table Iterator获取word表格中的数据,但是这样会读取到所有表格的数据集合,用户单从一个表格中单元格的信息无法分辨出这种表是什么表,所以,用户并不能从word文档的多个表格中直接提取到需要的表格。
因此,现有表格提取方法无法直接提取到需要的表格是一种亟待解决的问题。
发明内容
本发明的主要目的在于提供一种表格提取方法、装置、终端及可读存储介质,旨在解决现有的表格提取方法无法直接提取到需要的表格的技术问题。
为实现上述目的,本发明提供一种表格提取方法,所述表格提取方法包括:
获取查询请求以及待提取的word文档;
根据所述查询请求获得对应的查询关键词;
识别所述word文档,获得word文档中各表格对应的表格关键词;
将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取所述相似度最高的预设个数的表格关键词对应的表格。
优选地,所述识别所述word文档,获得word文档中各表格对应的表格关键词的步骤包括:
识别word文档中的表格,获得各表格的内部关键词;
解析word文档的文档类型;
若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词。
优选地,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,包括:
判断各表格对应的外部关键词中是否存在表格的标题;
若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;
若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度。
优选地,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,还包括:
若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;
获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;
若所述数量小于所述预设个数,则将所述第一匹配度作为查询关键词与表格对应的表格关键词的相似度;
若所述数量大于或等于所述预设个数,则获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词,并获取第二预设相似度作为查询关键词与第一匹配度小于预设匹配度的表格对应的表格关键词的相似度;
将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行对比,获得外部关键词与查询关键词的第二匹配度,且将所述第二匹配度作为查询关键词与表格对应的表格关键词的相似度。
优选地,所述根据所述查询请求获得对应的查询关键词的步骤包括:
若所述查询请求为文本信息,则将所述文本信息作为检索信息;
若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息;
通过所述检索信息查询获得对应的查询关键词。
优选地,所述若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息的步骤包括:
若所述查询请求为图片,则将所述图片灰度化,并将灰度化的图片二值化处理得到二值化图像;
将所述二值化图像进行横向、纵向的膨胀、腐蚀操作,得到所述图片中的横线位置和竖线位置;
基于所述横线位置和所述竖线位置得到所述图片中的横线竖线交叉点位置;
通过所述图片中的横线竖线交叉点位置判断所述图片中是否有表格;
若所述图片中具有表格,则提取所述图片中的表格表头作为检索信息。
若所述图片中不具有表格,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息。
优选地,所述通过所述检索信息查询获得对应的查询关键词的步骤包括:
对所述检索信息进行词性分析,将所述检索信息中的名词作为查询关键词;或者,
将所述检索信息在预设的关键词库中进行匹配查询,并将检索信息中的与预设的关键词库相匹配的字符提取为关键词;或者,
对所述检索信息进行同义词检索,将检索到的同义词与所述检索信息一起组成查询关键词;或者,
若检索信息为表格表头,则通过所述检索信息查询对应的预设通用表头集合,并将所述预设通用表头集合作为查询关键词。
另外,本发明还提供一种表格提取装置,所述表格提取装置包括:
获取装置,所述获取装置用于获取查询请求以及待提取的word文档;
获得装置,所述获得装置用于根据所述查询请求获得对应的查询关键词;
识别装置,所述识别装置用于识别所述word文档,获得word文档中各表格对应的表格关键词;
匹配装置,所述匹配装置用于将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取装置,所述提取装置用于提取所述相似度最高的预设个数的表格关键词对应的表格。
本发明还提供一种终端,包括处理器、存储器、以及存储在所述存储器上的可被所述处理器执行的表格提取程序,其中,所述表格提取程序被所述处理器执行时,实现如上所述的表格提取方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有表格提取程序,其中,所述表格提取程序被处理器执行时,实现如上所述的表格提取方法的步骤。
本发明技术方案中,获取查询请求以及待提取的word文档;根据所述查询请求获得对应的查询关键词;识别所述word文档,获得word文档中各表格对应的表格关键词;将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;提取所述相似度最高的预设个数的表格关键词对应的表格。本发明提出的技术方案基于数据查询对word中的表格进行提取,在用户需要从word文档中提取表格时,终端能根据获取的查询请求获得查询请求与待提取的word文档中的表格对应的表格关键词的相似度,再提取相似度最高的预设个数的表格,因此,本申请可以直接在word文档中提取到需要的目标表格。
附图说明
图1为本发明实施例方案中涉及的终端的硬件结构示意图;
图2为本发明表格提取方法第一实施例的流程示意图;
图3为本发明实施例中识别所述word文档,获得word文档中各表格对应的表格关键词的步骤的流程细化示意图;
图4为本发明实施例中将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤的流程细化示意图;
图5为本发明实施例中根据所述查询请求获得对应的查询关键词的步骤的流程细化示意图;
图6为本发明实施例中若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息的步骤的流程细化示意图;
图7为本发明表格提取装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的表格提取方法主要应用于终端,该终端可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的终端结构示意图。本发明实施例中,终端可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、Wi-Fi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及表格提取程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的表格提取程序,并执行表格提取方法的步骤。
基于上述终端的硬件结构,提出本发明表格提取方法的各个实施例。
本发明提供一种表格提取方法。
请参阅图2,在本发明第一实施例中,表格提取方法包括以下步骤:
步骤S100,获取查询请求以及待提取的word文档;
具体地,对表格进行提取的查询请求可以由用户手动触发,例如,可以由终端的搜索引擎在接收到用户输入的检索词后通过查询控件触发,查询请求也可以由终端的其他功能模块的调用请求触发,例如,在信息分析系统中,由系统的表格整理模块或信息分析模块调用触发。查询请求中可以包含有需要提取的表格的标题、关键词及表头等相关信息。待提取的word文档可以是用户在进行查询时上传至终端的word文档,终端在获得查询请求的同时获得待提取的word文档,待提取的word文档还可以是预先存储在数据库中的word文档,在触发查询请求时,终端将获取数据库中的待提取的word文档。
步骤S200,根据所述查询请求获得对应的查询关键词;
在获取到查询请求后,将查询请求发送至本地服务器或远程服务器来获得对应的查询关键词。当查询请求为文本信息时,直接根据文本信息查询到查询关键词,当查询请求为图片时,对图片进行处理,获得对应的文字后,根据文字查询到查询关键词。
步骤S300,识别word文档,获得word文档中各表格对应的表格关键词;
在获得待提取的word文档后,对word文档进行识别,获得word文档中各表格对应的表格关键词,具体地,可以通过java和/或python程序识别word表格,获得分开的表格和段路文本,在一种实施例中,可以直接识别表格中的内部关键词作为表格对应的表格关键词,在另一种实施例中,可以识别表格中的内部关键词,再获得与表格对应的段路文本中的外部关键词,将内部关键词与外部关键词组合在一起形成表格对应的表格关键词。
步骤S400,将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
具体地,相似度可以为查询关键词与表格关键词的重合概率,即与查询关键词重合的表格关键词个数除以表格关键词总数;相似度也可以是查询关键词与表格关键词的相似程度。本实施例中,相似度为查询关键词与表格关键词的重合概率。将获得的查询关键字与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度。
步骤S500,提取所述相似度最高的预设个数的表格关键词对应的表格;
具体地,用户可以在终端中根据需要预设需要提取的表格的预设个数,预设个数可以为一个、二个或多个。在另一种实施例中,可以在终端预设相似度,将获得的相似度大于预设相似度的表格关键词对应的表格作为目标表格提取出来。此外,将表格提取出来后,可以单独作为文件保存至目标数据库,或者将提取出的表格直接显示于进行查询的窗口界面。
本发明技术方案中,获取查询请求以及待提取的word文档;根据所述查询请求获得对应的查询关键词;识别所述word文档,获得word文档中各表格对应的表格关键词;将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;提取所述相似度最高的预设个数的表格关键词对应的表格。本发明提出的技术方案基于数据查询对word中的表格进行提取,在用户需要从word文档中提取表格时,终端能根据获取的查询请求获得查询请求与待提取的word文档中的表格对应的表格关键词的相似度,再提取相似度最高的预设个数的表格,因此,本申请可以直接在word文档中提取到需要的目标表格。
进一步地,请参照图3,图3为本发明实施例中识别所述word文档,获得word文档中各表格对应的表格关键词的步骤的流程细化示意图,基于第一实施例,步骤S300包括:
步骤S310,识别word文档中的表格,获得各表格的内部关键词;
具体地,可以通过java和/或python程序识别word文档,获得分开的表格以及文本,提取表格中的内容作为内部关键词,内部关键词包括表格第一行和/或第一列的表头。
步骤S320,解析word文档的文档类型;
具体地,表格与其对应段落文本之间描述对象高度相关,有些word文档存在有固定的排版格式,如合同,简历等,可以直接通过java解析word文档的文档类型。具体地,可以在终端预设每个排版格式类型对应的模版,并将模版存入模版数据库,在获得word文档后,通过java识别word文档的格式,将识别出的格式与模版数据库中的模版的排版格式进行对比,如果识别出的格式与模版数据库中的某一个模版的排版格式相同,则确定word文档的文档类型为排版格式类型。如果识别出的格式与模版数据库中的所有的模版的排版格式均不相同,则确定word文档的文档类型不是排版格式类型。
步骤S330,若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
具体地,可以在终端的模版数据库中预设每个模版中与表格高度相关的段落文本的段落文本的位置,在文档类型是排版格式类型时,根据文档类型可以确定word文档的格式与对应的模版的排版格式一致,根据对应的模版的排版格式可以确定word文档中与各表格高度相关的段落文本,将高度相关的段落文本作为与表格对应的段落文本,因此,如果文档类型是排版格式类型,则根据文档类型获取与各表格对应的段落文本。在获得与表格对应的段落文本后,对段路文本进行分析获得外部关键词。具体地,可以将与表格对应段落文本放入预设词库中进行匹配查询,获得段落文本中与预设词库匹配的词语作为各表格的外部关键词。
步骤S340,若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
如果word文档的文档类型不是排版格式类型,则说明word文档不具有固定排版格式,此时,可以获取各表格之前和之后的预设段落的段落文本,由于对表格进行描述的段落一般为表格之前或之后的段落,因此,预设段落可以设为一段。在获取到表格之前和之后的预设段落的段落文本后,将该段落文本放入预设词库中进行匹配查询,获得段落文本中与预设词库匹配的词语作为外部关键词。在另一种实施例中,可以获取各表格之前和之后的预设段落的段落文本,对各表格之前和之后的预设段落的段落文本进行分析,如果段落文本中提取到了“上表”,则可确认该段落文本与位置在其上,且距离最近的表格相对应,即,该表格对应的段落文本为在其之后的预设段落的段落文本,则对该段落文本进行关键词提取获得外部关键词;如果在段落文本中提取到了“下表”,则可确认该段落文本与位置在其下,且距离最近的表格相对应,即,该表格对应的段落文本为在其之前的预设段落的段落文本,则对该段落文本进行关键词提取获得各表格的外部关键词。
需要说明的是,如果表格存在标题或标号(如表1-2/1-3/2-1等),那么,对表格之前和之后预设段落的段落文本进行关键词提取时,将同时提取出表格段落文本中的标题作为外部关键词。
步骤S350,将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词。
在获取到各表格的内部关键词与外部关键词之后,将内部关键词和外部关键词一起组成与各表格对应的表格关键词。通过将内部关键词与外部关键词一起组成各表格对应的表格关键词,可以获得更精准的查询结果。
进一步地,请参照图4,图4为本发明实施例中将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤的流程细化示意图,基于上述实施例,步骤S400包括:
步骤S410,判断各表格对应的外部关键词中是否存在表格的标题;
在获取到各表格的内部关键词和外部关键词后,可以通过java或python来识别word文档中的各表格是否存在标题,如果word文档中的某一表格存在标题,则该表格对应的外部关键词中将包含有该表格的标题。因此,可以先通过判断word文档中的各表格是否存在标题来判断各表格对应的外部关键词中是否存在表格的标题。
步骤S420,若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;
需要说明的是,word文档中存在多个表格,多个表格中可能某一个或某几个表格存在标题,也可能所有的表格均不存在标题,本实施例中的,若存在表格的标题指的是表格对应的外部关键词存在表格的标题,进行后续操作的就是该存在标题的外部关键词对应的表格。
如果外部关键词中存在表格的标题,由于标题就是对表格的一个总描述,如果查询关键词与标题是一致的,那么,标题对应的表格就最可能是用户所需要提取的表格。因此,可以将标题与查询关键词进行对比,判断标题与查询关键词是否一致。
步骤S430,若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度。
如果查询关键词与标题是一致的,那么,标题对应的表格就最可能是用户所需要提取的表格,此时,可以获取第一预设相似度作为查询关键词与表表格对应的表格关键词的相似度,第一预设相似度可以设置为100%。
进一步地,请参照图4,步骤S400,还包括:
步骤S440,若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;
需要说明的是,word文档中存在多个表格,多个表格中可能某一个或某几个表格存在标题,也可能所有的表格均不存在标题,本实施例中的,若不存在表格的标题或表格的标题与查询关键词不一致指的是表格对应的外部关键词不存在表格的标题,或表格的标题与查询关键词不一致,进行后续操作的就是该不存在标题的外部关键词对应的表格或标题与查询关键词不一致的外部关键词对应的表格。
具体地,如果外部关键词中不存在表格的标题,或者外部关键词中存在的表格的标题与查询关键词不一致,此时,为了获得表格对应的外部关键词与查询关键词的相似度,可以获取各表格的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度,第一匹配度可以为查询关键词与内部关键词的重合概率,即与查询关键词重合的内部关键词个数除以内部关键词总数。
步骤S450,获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;
由于某些表格的内部关键词非常相似,重合度较高,基于内部关键词进行相似度对比时,可能获得多个匹配度较高的表格,因此,可以在终端预先设置预设匹配度,获取第一匹配度大于预设匹配度的内部关键词对应的表格的数量,由于需要提取出预设个数的表格,因此,需要判断第一匹配度大于预设匹配度的表格的数量是否大于或等于预设个数。
步骤S460,若所述数量小于所述预设个数,则将所述第一匹配度作为查询关键词与表格对应的表格关键词的相似度;
如果第一匹配度大于预设匹配度的表格的数量小于预设个数,则说明相似度较高的表格的数量较少,此时,直接将第一匹配度作为查询关键词与表格对应的表格关键词的相似度,即,最终提取的第一匹配度最高的预设个数的表格。
步骤S470,若所述数量大于或等于所述预设个数,则获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词,并获取第二预设相似度作为查询关键词与第一匹配度小于预设匹配度的表格对应的表格关键词的相似度;
如果第一匹配度大于预设匹配度的表格的数量小于预设个数,则说明相似度较高的表格的数量较多,此时,为了进一步提高检索精确度,可以获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词。并且,获取第二预设相似度作为第一匹配度小于预设匹配度的表格的表格关键词与查询关键词的相似度,第二相似度可以设为0,即,将第一匹配度小于预设匹配度的表格对应的表格关键词与查询关键词的相似度设为0。
步骤S480,将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行对比,获得外部关键词与查询关键词的第二匹配度,且将所述第二匹配度作为查询关键词与表格对应的表格关键词的相似度。
具体地,将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行相似度匹配,获得表格对应的外部关键词与查询关键词的第二匹配度,并将第二匹配度作为查询关键词与表格对应的表格关键词的相似度。其中,第二匹配度可以为查询关键词与内部关键词的重合概率,即与查询关键词重合的内部关键词个数除以内部关键词总数。由于第一匹配度小于预设匹配度的表格对应的表格关键词与查询关键词的相似度设为0,能够保证最终提取出的相似度最高的预设个数的表格就是第二匹配度最高的预设个数的表格。
此外,在其他实施例中,可以在获取到第一匹配度最高的预设数量的表格后,再获取这些表格对应的表格关键词中的外部关键词,将外部关键词与查询关键词进行相似度匹配,获得表格对应的外部关键词与查询关键词的第二匹配度,并将第二匹配度作为查询关键词与表格关键词的相似度,其中,预设数量大于预设个数。此外,需要将第一匹配度小于预设匹配度的表格对应的表格关键词与查询关键词的相似度设为0,以保证最终提取出的相似度最高的预设个数的表格就是第二匹配度最高的预设个数的表格。
进一步地,请参照图5,图5为本发明实施例中根据所述查询请求获得对应的查询关键词的步骤的流程细化示意图,基于上述实施例,步骤S200包括:
步骤S210,若所述查询请求为文本,则将所述文本作为检索信息;
步骤S220,若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息;
步骤S230,通过所述检索信息查询获得对应的查询关键词。
具体地,在获取查询请求后,对查询请求进行检测,如果检测到查询请求为文本,就直接将文本作为后续的检索信息,即,检索信息可以是一个或多个词组,可以是一句话,也可以是一段文字。如果检测到查询请求为图片格式时,可以基于OCR技术图片进行图片转文字操作,将转换得到的文字作为后续的检索信息。在得到检索信息后,通过检索信息查询获得对应的查询关键词。
具体地,请参照图6,图6为本发明实施例中若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息的步骤的流程细化示意图,基于上述实施例,步骤S220包括:
步骤S221,若所述查询请求为图片,则将所述图片灰度化,并将灰度化的图片二值化处理得到二值化图像;
如果查询请求为图片,可以先分析该图片中是否存在表格,可以利用python来分析图片中是否存在表格。具体地,可以先将图片灰度化,图片的灰度化是使得图片的像素点矩阵中的每一个像素点都满足下面的关系:R=G=B,其中,R=G=B的值叫灰度值。再将灰度化的图片二值化处理得到二值化图像,二值化就是让图像的像素点矩阵中的每个像素点的灰度值为0(黑色)或者255(白色),也就是让整个图像呈现只有黑和白的效果。
步骤S222,将所述二值化图像进行横向、纵向的膨胀、腐蚀操作,得到所述图片中的横线位置和竖线位置;
具体地,膨胀操作是用结构元素,扫描二值化图像的每一个像素,用结构元素与其覆盖的二值化图像做“与”运算,如果都为0,结构图像的该像素为0,否则为1,使得二值化图像扩大一圈;腐蚀操作是用结构元素,扫描二值化图像的每一个像素,用结构元素与其覆盖的二值化图像做“与”运算,如果都为1,结构图像的该像素为1,否则为0,使得二值化图像减小一圈。通过对二值化图像进行横向、纵向的膨胀、腐蚀操作,就能得到图片中的横线位置和竖线位置。
步骤S223,基于所述横线位置和所述竖线位置得到所述图片中的横线竖线交叉点位置;
在获得二值化图像中的横线位置和竖线位置后,对获得的横线位置与竖线位置作与运算,可以获得图片中的横线竖线交叉点位置。
步骤S224,通过所述图片中的横线竖线交叉点位置判断所述图片中是否有表格;
获得图片中的横线竖线交叉点位置后,通过图片中的横线竖线交叉点位置判断图片中是否有表格,具体地,可以通过判断横线竖线交叉点位置之间的几何位置关系判断是否形成了表格,如,通过几何计算得到横线竖线交叉点位置之间是否形成了矩形框来判断图片中是否有表格,如果线竖线交叉点位置之间形成了矩形框,说明图片中有表格,如果线竖线交叉点位置之间未形成了矩形框,说明图片中没有表格。
步骤S225,若所述图片中具有表格,则提取所述图片中的表格表头作为检索信息;
如果图片中存在表格,则基于表头在表格中的位置特征,如,表格的表头在报个的第一行或者第一列,提取出图片中的表格表头作为检索信息。
步骤S226,若所述图片中不具有表格,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息。
如果图片中不存在表格,则直接基于OCR对图片直接进行文字转换,将转换得到的文字作为检索信息。
进一步地,通过所述检索信息查询获得对应的查询关键词的步骤包括:
对所述检索信息进行词性分析,将所述检索信息中的名词作为查询关键词;
具体地,在得到检索信息后,可以通过分词器对检索信息进行分词处理,如,可以使用IKAnalyzer分词器(IK分词器)对检索信息进行分词处理,IK分词器可以支持自定义词典,本实施例中,通过IK分词器分词后,对分出来的词语进行词性分析,将其中的名词作为查询关键词。
或者,将所述检索信息在预设的关键词库中进行匹配查询,并将检索信息中的与预设的关键词库相匹配的字符提取为关键词;
在另一种实施例中,可以在终端预设关键词库,将检索信息放入预设的关键词库中进行匹配查询,并将检索信息中的与预设的关键词库相匹配的字符提取为关键词,具体地,可以先通过分词器对检索信息进行分词处理,得到不同的字符,将字符放入预设关键词库中进行匹配查询,判断在关键词库中是否存在与分出来的字符匹配的词语,如果在预设关键词库中有与检索信息中的字符相匹配的词语,则将该检索信息中的字符提取为关键词。此外,如果在预设的关键词库中无法找到与文本信息中的字符相匹配的词,终端可以生成无法提取关键词的提示信息,以提醒用户无法根据查询请求提取表格。
或者,对所述检索信息进行同义词检索,将检索到的同义词与所述检索信息一起组成查询关键词;
在又一种实施例中,可以在终端预设同义词库,将检索信息放入同义词库中对检索信息进行同义词检索,例如,如果检索信息为“人事信息”,可以查询出同义词“人员信息”,将检索出来的同义词与检索信息一起组成查询关键词,例如,如果检索信息为“人事信息”,检索出来的同义词为“人员信息”,则查询关键词为“人事信息”与“人员信息”的集合。
或者,若检索信息为表格表头,则通过所述检索信息查询对应的预设通用表头集合,并将所述预设通用表头集合作为查询关键词。
此外,可以在终端预先为各种表格表头关联通用表头集合,如果检索信息为表格表头,则根据检索信息获取对应的预设通用表头集合,并将预设通用表头集合作为查询关键词,例如,检索信息为人员信息表,关联的通用表头集合可以为姓名、身份证号、籍贯等,其中,用户可以自主配置不同表格表头关联的通用表头集合。
需要说明的是,用户可以自主设置或选择将检索信息中的名词、检索信息中的关键词、检索信息的相同词、检索信息的同义词、检索信息对应的表格通用表头集合中的一种或多种作为查询关键词。
此外,请参照图7,本发明还提供一种表格提取装置10,所述表格提取装置10包括:
获取装置20,所述获取装置用于获取查询请求以及待提取的word文档;
获得装置30,所述获得装置用于根据所述查询请求获得对应的查询关键词;
识别装置40,所述识别装置用于识别所述word文档,获得word文档中各表格对应的表格关键词;
匹配装置50,所述匹配装置用于将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取装置60,所述提取装置用于提取所述相似度最高的预设个数的表格关键词对应的表格。
进一步,所述识别装置40还用于:
识别word文档中的表格,获得各表格的内部关键词;
解析word文档的文档类型;
若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词。
所述匹配装置50用于:
判断各表格对应的外部关键词中是否存在表格的标题;
若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;
若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度。
所述匹配装置50还用于:
若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;
获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;
若所述数量小于所述预设个数,则将所述第一匹配度作为查询关键词与表格对应的表格关键词的相似度;
若所述数量大于或等于所述预设个数,则获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词,并获取第二预设相似度作为查询关键词与第一匹配度小于预设匹配度的表格对应的表格关键词的相似度;
将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行对比,获得外部关键词与查询关键词的第二匹配度,且将所述第二匹配度作为查询关键词与表格对应的表格关键词的相似度。
进一步地,所述获得装置30用于:
若所述查询请求为文本信息,则将所述文本信息作为检索信息;
若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息;
通过所述检索信息查询获得对应的查询关键词。
进一步地,所述获得装置30还用于:
若所述查询请求为图片,则将所述图片灰度化,并将灰度化的图片二值化处理得到二值化图像;
将所述二值化图像进行横向、纵向的膨胀、腐蚀操作,得到所述图片中的横线位置和竖线位置;
基于所述横线位置和所述竖线位置得到所述图片中的横线竖线交叉点位置;
通过所述图片中的横线竖线交叉点位置判断所述图片中是否有表格;
若所述图片中具有表格,则提取所述图片中的表格表头作为检索信息。
若所述图片中不具有表格,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息。
进一步地,所述获得装置30还用于:
对所述检索信息进行词性分析,将所述检索信息中的名词作为查询关键词;或者,
将所述检索信息在预设的关键词库中进行匹配查询,并将检索信息中的与预设的关键词库相匹配的字符提取为关键词;或者,
对所述检索信息进行同义词检索,将检索到的同义词与所述检索信息一起组成查询关键词;或者,
若检索信息为表格表头,则通过所述检索信息查询对应的预设通用表头集合,并将所述预设通用表头集合作为查询关键词。
其中,上述表格提取装置10中各个模块与上述表格提取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有表格提取程序,其中,表格提取程序被处理器执行时,实现如上述的表格提取方法的步骤。
其中,表格提取程序被执行时所实现的方法可参照本发明表格提取方法的各个实施例,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种表格提取方法,其特征在于,所述表格提取方法包括:
获取查询请求以及待提取的word文档;
根据所述查询请求获得对应的查询关键词;
识别所述word文档,获得word文档中各表格对应的表格关键词;
将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取所述相似度最高的预设个数的表格关键词对应的表格。
2.如权利要求1所述的表格提取方法,其特征在于,所述识别所述word文档,获得word文档中各表格对应的表格关键词的步骤包括:
识别word文档中的表格,获得各表格的内部关键词;
解析word文档的文档类型;
若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词。
3.如权利要求2所述的表格提取方法,其特征在于,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,包括:
判断各表格对应的外部关键词中是否存在表格的标题;
若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;
若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度。
4.如权利要求3所述的表格提取方法,其特征在于,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,还包括:
若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;
获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;
若所述数量小于所述预设个数,则将所述第一匹配度作为查询关键词与表格对应的表格关键词的相似度;
若所述数量大于或等于所述预设个数,则获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词,并获取第二预设相似度作为查询关键词与第一匹配度小于预设匹配度的表格对应的表格关键词的相似度;
将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行对比,获得外部关键词与查询关键词的第二匹配度,且将所述第二匹配度作为查询关键词与表格对应的表格关键词的相似度。
5.如权利要求1-4中任一项所述的表格提取方法,其特征在于,所述根据所述查询请求获得对应的查询关键词的步骤包括:
若所述查询请求为文本信息,则将所述文本信息作为检索信息;
若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息;
通过所述检索信息查询获得对应的查询关键词。
6.如权利要求5所述的表格提取方法,其特征在于,所述若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息的步骤包括:
若所述查询请求为图片,则将所述图片灰度化,并将灰度化的图片二值化处理得到二值化图像;
将所述二值化图像进行横向、纵向的膨胀、腐蚀操作,得到所述图片中的横线位置和竖线位置;
基于所述横线位置和所述竖线位置得到所述图片中的横线竖线交叉点位置;
通过所述图片中的横线竖线交叉点位置判断所述图片中是否有表格;
若所述图片中具有表格,则提取所述图片中的表格表头作为检索信息。
若所述图片中不具有表格,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息。
7.如权利要求6所述的表格提取方法,其特征在于,所述通过所述检索信息查询获得对应的查询关键词的步骤包括:
对所述检索信息进行词性分析,将所述检索信息中的名词作为查询关键词;或者,
将所述检索信息在预设的关键词库中进行匹配查询,并将检索信息中的与预设的关键词库相匹配的字符提取为关键词;或者,
对所述检索信息进行同义词检索,将检索到的同义词与所述检索信息一起组成查询关键词;或者,
若检索信息为表格表头,则通过所述检索信息查询对应的预设通用表头集合,并将所述预设通用表头集合作为查询关键词。
8.一种表格提取装置,其特征在于,所述表格提取装置包括:
获取装置,所述获取装置用于获取查询请求以及待提取的word文档;
获得装置,所述获得装置用于根据所述查询请求获得对应的查询关键词;
识别装置,所述识别装置用于识别所述word文档,获得word文档中各表格对应的表格关键词;
匹配装置,所述匹配装置用于将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取装置,所述提取装置用于提取所述相似度最高的预设个数的表格关键词对应的表格。
9.一种终端,其特征在于,包括处理器、存储器、以及存储在所述存储器上的可被所述处理器执行的表格提取程序,其中,所述表格提取程序被所述处理器执行时,实现如权利要求1至7中任一项所述的表格提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有表格提取程序,其中,所述表格提取程序被处理器执行时,实现如权利要求1至7中任一项所述的表格提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783743.3A CN110659346B (zh) | 2019-08-23 | 2019-08-23 | 表格提取方法、装置、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783743.3A CN110659346B (zh) | 2019-08-23 | 2019-08-23 | 表格提取方法、装置、终端及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110659346A true CN110659346A (zh) | 2020-01-07 |
CN110659346B CN110659346B (zh) | 2024-04-12 |
Family
ID=69037781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910783743.3A Active CN110659346B (zh) | 2019-08-23 | 2019-08-23 | 表格提取方法、装置、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110659346B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112000834A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 文档处理方法、装置、系统、电子设备及存储介质 |
CN112579727A (zh) * | 2020-12-16 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN114186543A (zh) * | 2021-12-06 | 2022-03-15 | 明度智云(浙江)科技有限公司 | 一种药物实验文档的内容分析提取方法、系统和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488124A (zh) * | 2008-01-11 | 2009-07-22 | 株式会社理光 | 信息处理设备、信息处理系统及信息处理方法 |
KR20130096004A (ko) * | 2012-02-21 | 2013-08-29 | 한국과학기술원 | 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 |
KR20130097018A (ko) * | 2012-02-23 | 2013-09-02 | 한국과학기술원 | 화일 기반 질의로 자료를 검색하는 장치 및 그 방법 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
US20170116172A1 (en) * | 2015-10-22 | 2017-04-27 | International Business Machines Corporation | Tabular data compilation |
CN106649778A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的交互方法和装置 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN109219811A (zh) * | 2016-05-23 | 2019-01-15 | 微软技术许可有限责任公司 | 相关段落检索系统 |
CN109670028A (zh) * | 2018-12-27 | 2019-04-23 | 天津字节跳动科技有限公司 | 在线文档中表格检索方法及装置 |
-
2019
- 2019-08-23 CN CN201910783743.3A patent/CN110659346B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488124A (zh) * | 2008-01-11 | 2009-07-22 | 株式会社理光 | 信息处理设备、信息处理系统及信息处理方法 |
KR20130096004A (ko) * | 2012-02-21 | 2013-08-29 | 한국과학기술원 | 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 |
KR20130097018A (ko) * | 2012-02-23 | 2013-09-02 | 한국과학기술원 | 화일 기반 질의로 자료를 검색하는 장치 및 그 방법 |
US20170116172A1 (en) * | 2015-10-22 | 2017-04-27 | International Business Machines Corporation | Tabular data compilation |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN109219811A (zh) * | 2016-05-23 | 2019-01-15 | 微软技术许可有限责任公司 | 相关段落检索系统 |
CN106649778A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的交互方法和装置 |
CN108470021A (zh) * | 2018-03-26 | 2018-08-31 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN109670028A (zh) * | 2018-12-27 | 2019-04-23 | 天津字节跳动科技有限公司 | 在线文档中表格检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
YING LIU: "TableSeer: Automatic Table Metadata Extraction and Searching in Digital Libraries", 《JCDL’07:PROCEEDINGS OR THE 7TH ACM/IEEE-CS JOINT CONFERENCE ON DIGITAL LIBRARIES》, pages 91 - 100 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN111859895B (zh) * | 2020-07-28 | 2023-11-03 | 明度智云(浙江)科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112000834A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 文档处理方法、装置、系统、电子设备及存储介质 |
CN112579727A (zh) * | 2020-12-16 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN112579727B (zh) * | 2020-12-16 | 2022-03-22 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN114186543A (zh) * | 2021-12-06 | 2022-03-15 | 明度智云(浙江)科技有限公司 | 一种药物实验文档的内容分析提取方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110659346B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659346B (zh) | 表格提取方法、装置、终端及计算机可读存储介质 | |
US20210064860A1 (en) | Intelligent extraction of information from a document | |
US10438050B2 (en) | Image analysis device, image analysis system, and image analysis method | |
KR101769918B1 (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
CN109902285B (zh) | 语料分类方法、装置、计算机设备及存储介质 | |
CN108256523B (zh) | 基于移动终端的识别方法、装置及计算机可读存储介质 | |
US10152540B2 (en) | Linking thumbnail of image to web page | |
CN111639156B (zh) | 一种基于层级标签的查询方法、装置,设备及存储介质 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN110825611A (zh) | 异常程序的分析方法及装置和计算机可读存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN112559688A (zh) | 财报的阅读难度计算方法、装置、设备及可读存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN111400439A (zh) | 网络不良数据监控方法、装置及存储介质 | |
CN111414758B (zh) | 零指代位置检测方法、装置、设备及计算机可读存储介质 | |
KR20180126352A (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
CN101894158A (zh) | 一种智能检索系统 | |
CN115147846A (zh) | 多语言票据识别方法、装置、设备及存储介质 | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
CN112241463A (zh) | 一种基于融合文本语义与图片信息的搜索方法 | |
CN113535970A (zh) | 信息处理方法和装置、电子设备以及计算机可读存储介质 | |
US20230393873A1 (en) | Value-Added Content Providing Method and Computer System thereof | |
CN114048368A (zh) | 一种基于非结构化情报中提取数据的方法、装置及介质 | |
CN116049213A (zh) | 表格文档的关键词检索方法及电子设备 | |
US20220284493A1 (en) | Processing apparatus, processing method, and non-transitory storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |