CN113626444A - 基于位图算法的表格查询方法、装置、设备及介质 - Google Patents
基于位图算法的表格查询方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113626444A CN113626444A CN202110991113.2A CN202110991113A CN113626444A CN 113626444 A CN113626444 A CN 113626444A CN 202110991113 A CN202110991113 A CN 202110991113A CN 113626444 A CN113626444 A CN 113626444A
- Authority
- CN
- China
- Prior art keywords
- picture
- information
- identified
- characteristic
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 description 31
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000003550 marker Substances 0.000 description 9
- 238000007906 compression Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能领域,具体公开了一种基于位图算法的表格查询方法、装置、设备及介质,方法包括:将表格分割成多个待识别区域,记录待识别区域的位置信息;提取待识别区域的图片对应的图片特征字符串;根据对应的位置信息及图片特征字符串确定表格的第一特征信息;提取待识别区域的文字信息对应的文字特征字符串;根据对应的位置信息及文字特征字符串确定表格的第二特征信息;基于位图算法存储第一及第二特征信息,以获取表格索引信息;获取保存表格的地址路径,根据表格索引信息与地址路径建立表格检索数据库;当接收到表格检索指令时,根据表格检索指令确定待检索信息,并匹配对应的表格,实现了表格的精准查询。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于位图算法的表格查询方法、装置、设备及存储介质。
背景技术
目前,人们在查询表格数据时,往往会预先存储一定数量的表格到数据库中,并基于目标文字在数据库中匹配对应的表格。
但现有的查询方法仅能根据表格中是否包含目标文字去匹配对应的表格,因此造成表格查询精度不足,在进行表格查询时,容易造成存在相同文字信息的非目标表格被筛选查询出来,因此,如何提高表格检索精度,成为了本领域技术人员正在研究的热门课题。
发明内容
本申请提供了一种基于位图算法的表格查询方法、装置、设备及存储介质,旨在实现表格的精准查询。
第一方面,为实现上述目的,本申请提供一种基于位图算法的表格查询方法包括:
将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息;
识别每一待识别区域的图片,并提取图片对应的图片特征字符串;
根据待识别区域对应的位置信息及图片特征字符串确定表格的第一特征信息;
识别每一待识别区域的文字信息,并提取文字信息对应的文字特征字符串;
根据待识别区域对应的位置信息及文字特征字符串确定表格的第二特征信息;
基于位图算法存储第一特征信息及第二特征信息,以获取表格索引信息;
获取保存表格的地址路径,根据表格索引信息与地址路径建立表格检索模型,以根据表格检索模型建立表格检索数据库;
当接收到表格检索指令时,根据表格检索指令确定待检索信息,并从表格检索数据库中匹配与待检索信息对应的表格。
第二方面,本申请还提供一种表格查询装置,包括:
表格分割模块,用于将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息;
第一提取模块,用于识别每一待识别区域的图片,并提取图片对应的图片特征字符串;
第一特征信息确定模块,用于根据待识别区域对应的位置信息及图片特征字符串确定表格的第一特征信息;
第二提取模块,用于识别每一待识别区域的文字信息,并提取文字信息对应的文字特征字符串;
第二特征信息确定模块,用于根据待识别区域对应的位置信息及文字特征字符串确定表格的第二特征信息;
索引信息获取模块,用于基于位图算法存储第一特征信息及第二特征信息,以获取表格索引信息;
数据库建立模块,用于获取保存表格的地址路径,根据表格索引信息与所述地址路径建立表格检索模型,以根据所述表格检索模型建立表格检索数据库;
匹配模块,用于当接收到表格检索指令时,根据所述表格检索指令确定待检索信息,并从所述表格检索数据库中匹配与所述待检索信息对应的表格。
第三方面,本申请还提供一种计算机设备,包括存储器和处理器;存储器用于存储计算机程序;处理器用于执行的计算机程序并在执行的计算机程序时实现本申请实施例提供的任一项的表格查询方法。
第四方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现本申请实施例提供的任一项的表格查询方法。
本申请实施例公开的基于位图算法的表格查询方法、装置、设备及存储介质,通过将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息,识别每一待识别区域的图片,并提取图片对应的图片特征字符串,根据待识别区域对应的位置信息及图片特征字符串确定表格的第一特征信息,识别每一待识别区域的文字信息,并提取文字信息对应的文字特征字符串,根据待识别区域对应的位置信息及文字特征字符串确定表格的第二特征信息,基于位图算法存储第一特征信息及第二特征信息,以获取表格索引信息,获取保存表格的地址路径,根据表格索引信息与地址路径建立表格检索模型,以根据表格检索模型建立表格检索数据库,当接收到表格检索指令时,根据表格检索指令确定待检索信息,并从表格检索数据库中匹配与待检索信息对应的表格。因此本方法可以查询表格中是否包含目标文字或目标图片,还可以根据目标图片与目标文字在表格中的相对位置进行查询,提升了查询的精度与速度,而且减少了存储表格占用的内存空间。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种表格查询方法的步骤流程图;
图2为图1表格查询方法中表格分割步骤流程图;
图3为图1表格查询方法中表格分割场景示意图;
图4为图1表格查询方法中图片特征字符串确定步骤流程图;
图5为图4表格查询方法中图片特征字符串确定步骤中第一图片获取步骤流程图;
图6为图4表格查询方法中图片特征字符串确定步骤中第二图片获取步骤流程图;
图7为图4表格查询方法中图片特征字符串确定步骤中图片特征字符串确定步骤流程图;
图8为图1表格查询方法中文字特征字符串步骤流程图;
图9为本申请实施例提供的一种表格查询装置的模块结构示意图;
图10为本申请实施例提供的一种计算机设备的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供一种基于位图算法的表格查询方法、装置、设备及存储介质。其中,该表格查询方法可应用于人工智能设备中,其中,人工智能设备可以是服务器、手机、计算机和智能机器人等电子设备,服务器可以是独立的服务器,也可以是服务器集群,在此不做限定。
本实施例中,以该表格查询方法应用于计算机为例进行说明,但不局限于表格查询方法仅可以用于独立的计算机。
下面结合附图,对本申请的一些实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种表格查询方法的流程示意图。该方法包括以下步骤S100-S800;
步骤S100、将表格分割成多个待识别区域,并记录每一所述待识别区域对应的位置信息;
执行本表格查询方法的计算机通过机器学习,得到预设的表格分割方法,根据预设的表格分割方法将表格分割成多个待识别区域,并根据每一待识别区域在表格中的相对位置生成位置信息,将待识别区域与对应的位置信息关联,并在计算机中记录待识别区域对应的位置信息。
如图2所示,在一些实施方式中,步骤S100具体包括:步骤S110-S120;
步骤S110、根据预设分割方式对表格进行分割,得到多个待识别区域。
执行本表格查询方法的计算机通过机器学习,得到并存储了预设的表格分割方法并存储,根据预设的表格分割方法对表格进行分割,得到多个待识别区域。
示例性地,对于形状为矩形的表格,计算机根据预设的表格分割方法采用等间距的分割线分割表格,将该表格划分为K个等宽等高的待识别区域。
步骤S120、根据每一所述待识别区域在所述表格中的相对位置生成位置信息。
在一些实施方式中,根据每一所述待识别区域的位置生成位置信息具体包括:确定表格的表格中心,确定待识别区域的区域中心,根据表格中心与区域中心的相对位置关系,确定每一待识别区域的坐标,并根据坐标生成位置信息,并记录每一所述待识别区域对应的位置信息。
示例性地,对于形状为矩形的表格,执行本表格查询方法的计算机基于预设的边缘识别算法将该表格划分为K个等宽等高的待识别区域,以生成并记录K个待识别区域的位置信息,下面以K等于4,也即将表格四等分处理的实施方式为例进行说明:
请参阅图3,图3为图1表格查询方法中表格分割场景示意图。
如图3所示,表格包含了区域A与区域B,其中区域A为表格中的文字区域,区域B为表格中的图片区域。计算机设备基于预设的边缘识别算法划分表格,得到了待识别区域1、待识别区域2、待识别区域3、及待识别区域4。其中,待识别区域1包含了区域A1与区域B1,待识别区域2包含了区域A2与区域B2,待识别区域3包含了区域A3与区域B3,待识别区域4包含了区域A4与区域B4,且区域A1、A2、A3、及A4为对应待识别区域中的文字区域,区域B1、B2、B3、及B4为对应待识别区域中的图片区域。
确定表格的的表格中心以及待识别区域的区域中心,以表格中心作为坐标原点,以坐标原点的正右方向作为x轴正方向,以坐标原点正上方作为y轴正方向,以待识别区域在x轴上的长度的一半作为坐标系统在x轴上的单位长度,以待识别区域在y轴上的长度的一半作为坐标系统在y轴上的单位长度。坐标系统通过{x,y}来表示区域中心相对表格中心的位置关系,其中,x为x轴的坐标值,y为y轴的坐标值。因此可得:
待识别区域1对应的第一子图片坐标:{-1,+1}。
待识别区域2对应的第一子图片坐标:{+1,+1}。
待识别区域3对应的第一子图片坐标:{-1,-1}。
待识别区域4对应的第一子图片坐标:{+1,-1}。
在一些实施方式中,以一个字符串表示对应的待识别区域位置信息,根据坐标生成位置信息具体包括:声明一个长度为4个字符的字符串,以第一位的字符表示x的正负,正取“1”,负取“0”,以第二位的字符表示x的绝对值,以第三位的字符表示y的正负,正取“1”,负取“0”,以第四位的字符表示y的绝对值值,其中,第一位与第三位表示坐标值的正负。
由上述坐标生成位置信息的方法可得:
待识别区域1对应的位置信息:0111。
待识别区域2对应的位置信息:1111。
待识别区域3对应的位置信息:0101。
待识别区域4对应的位置信息:1101。
将每一待识别区域与对应的位置信息关联,并在计算机中记录每一待识别区域对应的位置信息。
步骤S200、识别每一所述待识别区域的图片,并提取所述图片对应的图片特征字符串。
如图4所示,在一些实施方式中,步骤S200具体包括:步骤S210-S230。
步骤S210、识别每一所述待识别区域的图片,以获得第一图片;
第一图片,即为对任一待识别区域的图片进行压缩处理后得到的图片,第一图片的尺寸比待识别区域的图片的尺寸小。先对待识别区域的图片进行压缩后再进行特征提取,以减少对图片进行特征提取的复杂度,有利于提高特征提取效率。
示例性的,假设待识别区域的图片大小为1600pixel*1600pixel,可以统一设定第一图片的目标尺寸为160pixel*160pixel。可以理解的是,对于第一图片的目标尺寸不做限制,可以根据需要进行设置。
如图5所示,在一些实施方式中,步骤S210具体包括:步骤S211至步骤S214。
步骤S211、识别所述待识别区域中的图片并对所述图片进行提取,以得到待处理图片;
将待识别区域输入基于预设的图片处理卷积神经网络,对待识别区域中的图片区域进行识别,其中,图片区域即仅包含图片单元,不包含文字单元或空白单元的区域,提取通过图片处理卷积神经网络识别确定的图片区域,得到待处理图片。基于预设的图片处理卷积神经网络对待识别区域进行提取的效果较好,确定图片单元边缘的过程更为准确、快捷。
在一些实施方式中,对待识别区域进行识别时,预设的图片处理卷积神经网络可采用卷积神经网络R-CNN(Region-Convolutional Neural Networks)。基于卷积神经网络R-CNN,在待识别区域设置多个提取框,在每个提取框对应的区域提取特征,根据提取的特征对图像进行分类,并抑制非极大值,再通过边界框回归模型修正提取框的准确位置与边缘,获得准确的提取框,提取框的区域即为图片区域,根据所述提取框进行提取即获得待处理图片。
步骤S212、获取所述待处理图片的图片属性信息,其中,所述图片属性信息至少包括图片存储空间:
其中,图片存储空间直接影响着计算机压缩图片所需占用的运行内存以及对图片进行特征提取的复杂程度。因为图片的存储空间越大,对图片进行压缩的过程中占用计算机的运行内存就越大,同时,在对图片进行特征提取时,图片的存储空间越大,复杂程度越高,占用的运行内存也会越大。因此,当图片的存储空间过大时,需占用大量计算机的运行内存对图片进行压缩。
步骤S213、当所述待处理图片的存储空间小于或等于预设值,将所述待处理图片进行压缩处理,以获取所述第一图片;
步骤S214、当所述待处理图片的存储空间大于所述预设值,将所述待处理图片切割为多个子图片,并对多个所述子图片进行压缩处理,以获取所述第一图片。
检测待识别区域的图片的图片属性信息之后,根据图片属性信息判断图片存储时所需的存储空间是否超过预设值。可以理解的是,预设值用于判断图片的压缩过程是否需要进行分片压缩处理。
当识别区域的图片的存储空间小于或等于预设值时,可以对图片直接进行压缩处理,以获得第一图片。
当待识别区域的图片的存储空间大于预设值时,需要先将图片切割为多个子图片后,再对多个子图片进行压缩处理,得到多个目标分片,再拼合以上多个目标分片以获取第一图片,避免了单次压缩过程占用过多的计算机运行内存。
可以理解的是,预设值可以根据计算机的配置以及应用场景进行设置。
示例性的,设置预设值为5MB,假设图片A的存储空间为2MB,即图片A存储空间小于预设值,则可以直接对该图片进行压缩,获得尺寸为目标尺寸的第一图片。假设图片B的存储空间为8MB,即图片B的存储空间大于预设值,则首先需要将待识别区域的图片切割为多个子图片,再分别对子图片进行压缩处理,得到多个目标分片,再拼合以上多个目标分片获得尺寸为目标尺寸的第一图片。
通过对待识别区域的图片切割后分别进行压缩,以得到目标图片,可以降低计算机在压缩图片的过程中对自身内存资源的占用,避免了在压缩过程中引发的计算机性能问题。
步骤S220、获取所述第一图片的颜色属性信息,并根据所述颜色属性信息匹配所述第一图片的图片转换模式,以根据所述图片转换模式将所述第一图片转换为第二图片,其中,所述第一图片及所述第二图片的图片属性不同;
第一图片根据其颜色属性信息来确定图片转换模式。根据图片转换模式将第一图片转换为第二图片,其中,第一图片及第二图片的图片属性不同。具体地,第二图片为根据第一图片获得的灰度图片,并且第二图片的尺寸比第一图片的尺寸小。可以理解的是,获取第一图片的颜色属性信息,是用于确定图片转换模式,便于将第一图片转换为第二图片。
如图6所示,在一些实施方式中,步骤S220具体包括:步骤S221至步骤S222。
步骤S221、当所述第一图片的颜色属性信息满足第一条件时,将所述第一图片划分为多个第一子图片,对多个所述第一子图片进行灰度化处理得到多个灰度化图片,并从中选取灰度方差最大的所述灰度图片作为第二图片;
其中,判断第一图片的颜色属性信息是否满足第一条件,是用于判断第一图片的是否接近二值图像。
在一些实施方式中,使用HSV(Hue-Saturation-Value)直方图判断第一图片的颜色属性信息是否满足第一条件,具体包括:提取第一图片的HSV直方图,将HSV直方图中的H分量量化为16级,S分量和V分量量化为4级,合成一维特征向量,根据特征向量得到最大特征向量值,并根据特征向量值计算得到特征向量均值,若最大特征向量值与特征向量均值相除得到的除值大于向量预设阈值,则第一图片的颜色属性信息满足第一条件,若最大特征向量值与特征向量均值相除得到的除值小于或等于向量预设阈值,则第一图片的颜色属性信息不满足第一条件。其中,向量预设阈值可以根据需要进行设置。
当第一图片的颜色属性信息满足第一条件时,即第一图片与二值图像区别较大,将第一图片划分为多个第一子图片,具体包括:将第一图片划分为N个子区域,并分别获取每个子区域中的图片作为第一子图片,其中,N为大于等于2的正整数。
下面以N等于5的实施方式为例进行说明:在第一图片中设置左上,右上,左下,右下以及中心5个的区域作为采样点,以进一步选择图片特征提取的采样图片。以左上角作为坐标原点,以坐标原点的正右方向作为x轴正方向,以坐标原点正下方作为y轴正方向。坐标系统通过{x,y,width,height}来表示,其中,x为x轴的坐标值,y为y轴的坐标值,width为宽度,height为高度。假设第一图片的坐标为{0,0,16,16},且每一个划分的区域的大小为8pixel*8pixel,则设置左上,右上,左下,右下以及中心5个的区域作为采样点,获得的5个第一子图片的坐标分别为:
左上区域对应的第一子图片坐标:{0,0,8,8}。
右上区域对应的第一子图片坐标:{8,0,8,8}。
左下区域对应的第一子图片坐标:{0,8,8,8}。
右下区域对应的第一子图片坐标:{8,8,8,8}。
中心区域对应的第一子图片坐标:{4,4,8,8}。
可以理解的是,上述五张图片皆已覆盖了第一图片的所有区域。通过上述方式划分第一图片,再将得到的多个第一子图片进行灰度化,并选取灰度方差最大的灰度图片作为第二图片,用以后续的图片特征字符串的提取,可以起到比较好的图片特征采样效果。
步骤S222、当所述第一图片的颜色属性信息不满足第一条件时,将所述第一图片压缩并进行灰度化处理,以得到第二图片。
当第一图片的颜色属性信息不满足第一条件时,即第一图片接近二值图像。执行本方法的计算机直接对此类的第一图片进行压缩及灰度化处理,得到第二图片,即所述第二图片必然为二值图像,便于后续对第二图片每个像素点的灰度值的确定。
步骤S230、获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并根据所述平均灰度值及所述像素灰度值确定所述第二图片的图片特征字符串。
其中,平均灰度值是第二图片的每一像素点的灰度值的平均值,图片特征签名值是根据第二图片每一像素点的灰度值与平均灰度值的数值关系确定。
如图7所示,在一些实施方式中,步骤S230具体包括步骤S231-S233:
步骤S231、获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并依次将所述第二图片中每个像素点的像素灰度值与所述平均灰度值进行比较;
步骤S232、当所述比较结果为所述像素灰度值大于所述平均灰度值,往数组中存入第一预设字符,否则往所述数组中存入第二预设字符;
步骤S233、依次读取所述数组中的字符元素,得到所述第二图片对应的图片特征字符串。
提取第二图片每个像素点的像素灰度值,并计算得到第二图片的平均灰度值,依次将每个像素点的像素灰度值与平均灰度值进行比较。根据得出的比较结果确定图片特征字符串,具体地,当单个像素点的像素灰度值大于平均灰度值,往数组中存入第一预设字符,当单个像素点的像素灰度值小于或等于平均灰度值,往数组中存入第二预设字符,依次读取数组中的字符元素,得到第二图片对应的图片特征字符串。
下面实施方式以第一预设字符为1、第二预设字符为0为例进行说明:假设第二图片为尺寸4pixel*4pixel的灰度图片,即第二图片共有16个像素点且16个像素点的灰度值分别为5、80、75、20、225、140、150、125、220、230、25、70、80、180、240、255,则可计算出该第二图片平均灰度值为(5+80+75+20+225+140+150+125+220+230+25+70+80+180+240+255)/16=135。依次将每一像素点的灰度值与灰度平均值进行比较,若像素灰度值大于平均灰度值,则往数组中存入1,否则往数组中存入0,可得数组:[0,0,0,0,1,1,1,0,1,1,0,0,0,1,1,1]。将数组中的元素进行拼接,得到长度为16位的字符串“0000111011000111”,以该字符串作为该第二图片对应的图片特征字符串。
步骤S300、根据所述待识别区域对应的位置信息及所述图片特征字符串确定所述表格的第一特征信息;
在一些实施方式中,表格的第一特征信息为字符串的形式,根据待识别区域对应的位置信息及图片特征字符串确定表格的第一特征信息具体包括:提取待识别区域对应的位置信息,及待识别区域对应的第二图片的图片特征字符串,拼合待识别区域对应的位置信息与图片特征字符串,得到与待识别区域的数量相同的融合字符串,其中,融合字符串与待识别区域一一对应,对于每一待识别区域都存在与其对应的融合字符串,以表格中所有待识别区域对应的融合字符串作为第一特征信息。
示例性地,将表格划分为4个等宽等高的待识别区域,各待识别区域对应的位置信息为4位长度的字符串,分别为“0111”、“1111”、“0101”、及“1101”,假设各待识别区域对应的的图片特征字符串的长度为16位,分别为“0000111011000111”、“0111011000100011”、“1011000100011011”、及“1000100011011011”,拼合待识别区域对应的位置信息与图片特征字符串,得到4个20位长度的融合字符串“01110000111011000111”、“11110111011000100011”、“01011011000100011011”、及“11011000100011011011”,上述4个融合字符串与4个待识别区域一一对应,而第一特征信息包括了以上所有的融合字符串。
步骤S400、识别每一所述待识别区域的文字信息,并提取所述文字信息对应的文字特征字符串;
如图8所示,在一些实施方式中,步骤S400具体包括步骤S401-S402:
步骤S401、识别所述待识别区域中的文字信息。
基于预设的图片处理卷积神经网络,对待识别区域中的文字区域进行识别,并根据文字区域提取出文字单元,再通过预设的匹配树确定文字单元对应的文字信息,其中,文字区域即仅包含文字单元,不包含图片单元或空白单元的区域。
在一些实施方式中,对待识别区域进行识别时,预设的图片处理卷积神经网络可采用卷积神经网络R-CNN(Region-Convolutional Neural Networks)。基于卷积神经网络R-CNN,在待识别区域设置多个提取框,在每个提取框对应的区域提取特征,根据提取的特征对每个提取框进行分类,并抑制非极大值,再通过边界框回归模型修正提取框的准确位置与边缘,获得准确的提取框,提取框的区域即为文字区域,对所述提取框进行提取即获得文字单元。
在一些实施方式中,还可以采用文字识别模型OCR(Optical CharacterRecognition,光学字符识别)识别待识别区域中的文字信息。
步骤S402、根据预设的转换关系将所述文字信息转换为对应的文字特征字符串。
在一些实施方式中,预设的转换关系为文字信息与十进制的中转数据之间的转换关系。根据预设的转换关系,根据文字信息确定对应的文字特征字符串具体包括:根据预设的转换关系,将文字信息转换为对应的中转数据,其中,该中转数据的数制为十进制;然后将中转数据进行数制转换,得到数制为二进制的文字特征字符串。
具体地,执行本表格查询方法的计算机中存储了文字信息与中转数据的预设转换关系,所述中转数据为十进制,而所述文字信息可以包括:数字、符号、文字、及字母中的任意一种。计算机根据预设的转换关系,将表格文本转换为十进制的中转数据,然后对中转数据进行数制转换,得到二进制的预处理数据。
步骤S500、根据所述待识别区域对应的位置信息及所述文字特征字符串确定所述表格的第二特征信息;
在一些实施方式中,表格的第二特征信息为字符串的形式,根据待识别区域对应的位置信息及文字特征字符串确定表格的第二特征信息具体包括:提取待识别区域对应的位置信息,及待识别区域对应的第二图片的文字特征字符串,拼合待识别区域对应的位置信息与文字特征字符串,得到与待识别区域的数量相同的融合字符串,其中,融合字符串与待识别区域一一对应,对于每一待识别区域都有与其对应的融合字符串,以表格中所有待识别区域对应的融合字符串作为第一特征信息。
在一些实施方式中,步骤S500之后还包括:查询长度最长的融合字符串,并根据长度最长的融合字符串,对所有第一特征信息中的融合字符串,及第二特征信息中的融合字符串进行补位,使每个融合字符串的长度相同,以便后续使用位图算法对融合字符串进行处理。
示例性地,当通过查询得到长度最长的融合字符串为20位的,则对其它长度的融合字符串进行末位补0,以使所有融合字符串的长度统一为20位。
步骤S600、基于位图算法存储所述第一特征信息及所述第二特征信息,以获取所述表格索引信息;
由步骤S200-S500可知,第一特征信息与第二特征信息都包括多个融合字符串,基于预设的位图算法存储第一特征信息及第二特征信息包括的多个融合字符串,得到与表格对应的位图文件,并以所述位图文件作为表格的索引信息。
在本实施例中,预设的位图算法为RBM算法(Roaring Bitmap算法),用于生成RBM文件(Roaring Bitmap文件),RBM文件包括多个分立的容器,用于存放大量的融合字符串,容器设置有三种不同的存储字符串方式:通过有序数组存储、通过位图存储、及通过压缩数组存储字符串,容器根据容器内的字符串量及字符串排布选择存储字符串方式,其中,字符串量指字符串的种类的数量。
其中,所述标识量可固定设置,也可根据字符串的字符长度最大值动态设置,具体地,容器根据字符长度最大值确定标识量,并根据容器内的字符串量与标识量的数值关系及字符串排布选择存储字符串方式。
当容器内的字符串量小于或等于标识量时,容器选择有序数组存储字符串,有序数组随着存储字符串量的增多自动扩容,同时其占用的存储空间也线性增加。
当容器内的字符串量大于第一标识时,使用位图存储字符串,即声明一长度固定的数组,数组中的每一个位对应着一种字符串,字符串与数组中的位存在着预设的映射关系,数组中的位为0表示对应的字符串不存在,数组中的位为1表示对应的字符串存在。初始状态下,数组的每一位设置为0,向位图输入字符串时,根据预设的映射关系确定数组中对应的位,并将该对应的位设置为1,即使用位图存储字符串对重复的字符串不作记录,只能记录任一字符串是否在容器中,不能统计容器中相同的字符串对应的字符串量。
例如,第一特征信息对应的融合字符串为“0100”,第二特征信息对应的融合字符串为“1010”,对第一特征信息及第二特征信息对应的融合字符串进行二进制转换可得“4”与“8”。在融合字符串最大长度不变的情况下,可得融合字符串的上限为“1111”,对“1111”进行数制转换可得“13”。则,声明一个长度为13位的数组,并将该数组的第4位与第18位设置为1,其它位设置为0。
即,第一特征信息与第二特征信息对应的融合字符串“0100”与“1010”可以用位图算法存储为字符串“0000010001000”,然后以位图算法存储的字符串作为表格索引信息。
在一些实施方式中,标识量根据字符串的字符串长度最大值动态设置第一标识,即标识量是与字符串长度最大值挂钩的数量值。
在一些实施方式中,在存储多个容器及其中的字符串之后还包括:当容器通过有序数组存储融合字符串,获取容器占用的存储空间,并计算使用压缩数组压缩融合字符串后的有序数组所占用的存储空间,当计算得出使用压缩数组压缩融合字符串后的有序数组所占用的存储空间减少时,清空所述有序数组并输入压缩数组压缩后的融合字符串。
将多个容器及其中的融合字符串存储在与表格对应的位图文件中,以所述位图文件作为表格的索引信息,其中,位图文件中的所有融合字符串都与表格对应关联。
步骤S700、获取保存所述表格的地址路径,根据所述表格索引信息与所述地址路径建立表格检索模型,以根据所述表格检索模型建立表格检索数据库;
其中,表格检索模型记录了表格索引信息、及存储表格的地址路径并对表格索引信息以及地址路径建立匹配树,即输入索引信息可匹配得到对应的地址路径,以确定对应的表格。根据表格检索模型建立表格检索数据库,即将表格检索模型存储到数据库中。
可以理解的是,不同的表格索引信息上,可能存在着部分相同的图片特征字符串或文字特征字符串,因此,所述表格检索模型存在一个图片特征字符串或文字特征字符串对应多个地址路径的情况。
步骤S800、当接收到表格检索指令时,根据所述表格检索指令确定待检索信息,并从所述表格检索数据库中匹配与所述待检索信息对应的文件。
执行本表格查询方法的计算机接收到表格检索指令后,根据表格检索指令获取待检索信息。其中,待检索信息包括待检索文字信息及待检索图片信息中的至少一种。
在一些实施方式中,步骤S800具体包括:步骤S810-S820。
步骤S810、接收到表格检索指令时,根据所述表格检索指令确定待检索信息,并根据所述待检索信息确定目标字符串。
可以理解的是,目标字符串根据待检索信息获得。待检索信息包含图片信息与文字信息中的至少一种,以及对应的位置信息,则根据步骤S200至步骤S500获得对应的第一特征信息与第二特征信息中的其中一种或其组合,作为目标字符串。
步骤S820、从所述表格检索数据库中匹配与所述目标字符串对应的表格。
如前述步骤S100-S700,表格检索数据库中记录有表格检索模型,即存储有位图文件。其中,通过从位图文件中获取融合字符串,并与目标字符串进行匹配,以获得对应的表格。
本申请提供的表格检索方法,通过将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息;识别每一待识别区域的图片,并提取图片的图片特征字符串,根据待识别区域对应的位置信息及图片特征字符串确定表格的第一特征信息,识别每一待识别区域的文字信息,根据文字信息提取表格对应的文字特征字符串,根据待识别区域对应的位置信息及文字特征字符串确定表格的第二特征信息,基于位图算法存储第一特征信息及第二特征信息,以获取表格索引信息,获取保存表格的地址路径,根据表格索引信息与地址路径建立表格检索模型,以根据表格检索模型建立表格检索数据库。当接收到表格检索指令时,根据表格检索指令确定待检索信息,并从表格检索数据库中匹配与待检索信息对应的文件。通过上述方法,在进行表格查询的时候,可以根据需要的目标图片进行匹配,或根据需要的目标文字进行匹配,也可以同时根据目标图片与目标文字进行匹配,还可以结合目标图片与目标文字在表格中的相对位置进行匹配。
请参阅图9,图9为本申请实施例提供的一种表格查询装置的模块结构示意图。
如图9所示,表格查询装置100包括:
表格分割模块101,用于将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息;
第一提取模块102,用于识别每一所述待识别区域的图片,并提取所述图片对应的图片特征字符串;
第一特征信息确定模块103,用于根据所述待识别区域对应的位置信息及所述图片特征字符串确定表格的第一特征信息;
第二提取模块104,用于识别每一所述待识别区域的文字信息,并提取所述文字信息对应的文字特征字符串;
第二特征信息确定模块105,用于根据所述待识别区域对应的位置信息及所述文字特征字符串确定表格的第二特征信息;
索引信息获取模块106,用于基于位图算法存储所述第一特征信息及所述第二特征信息,以获取所述表格索引信息;
数据库建立模块107,用于获取保存所述表格的地址路径,根据所述表格索引信息与所述地址路径建立表格检索模型,以根据所述表格检索模型建立表格检索数据库;
匹配模块108,用于当接收到表格检索指令时,根据所述表格检索指令确定待检索信息,并从所述表格检索数据库中匹配与所述待检索信息对应的表格。
在一实施方式中,第一模型获取模块103将所述标志物图像输入第一神经网络进行第一特征提取,以获取对应的第一特征向量,具体包括:
基于所述第一神经网络,提取标志物图像对应的标志物特征,所述标志物特征包括标志物颜色特征、标志物形状特征及标志物边缘特征中的至少一者;
对所述标志物特征进行特征嵌入处理,得到所述标志物图像对应的第一特征向量。
在一实施方式中,表格分割模块101将表格分割成多个待识别区域,并记录每一所述待识别区域对应的位置信息,具体包括:
根据预设分割方式对表格进行分割,得到多个待识别区域;
根据每一所述待识别区域在所述表格中的相对位置生成对应的位置信息。
在一实施方式中,第一提取模块102识别每一所述待识别区域的图片,并提取所述图片对应的图片特征字符串,具体包括:
识别每一所述待识别区域的图片,以获得第一图片;
获取所述第一图片的颜色属性信息,并根据所述颜色属性信息匹配所述第一图片的图片转换模式,以根据所述图片转换模式将所述第一图片转换为第二图片,其中,所述第一图片及所述第二图片的图片属性不同;
获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并根据所述平均灰度值及所述像素灰度值确定所述第二图片的图片特征字符串。
在一实施方式中,第一提取模块102获取每一所述待识别区域的图片,以获得第一图片,具体包括:
识别所述待识别区域中的图片并对所述图片进行提取,以得到待处理图片;
获取所述待处理图片的图片属性信息,其中,所述图片属性信息至少包括图片存储空间;
当所述待处理图片的存储空间小于或等于预设值,将所述待处理图片进行压缩处理,以获取所述第一图片;
当所述待处理图片的存储空间大于所述预设值,将所述待处理图片切割为多个子图片,并对多个所述子图片进行压缩处理,以获取所述第一图片。
在一实施方式中,第一提取模块102根据所述颜色属性信息匹配所述第一图片的图片转换模式,以根据所述图片转换模式将所述第一图片转换为第二图片,具体包括:
当所述第一图片的颜色属性信息满足第一条件时,将所述第一图片划分为多个第一子图片,对多个所述第一子图片进行灰度化处理得到多个灰度化图片,并从中选取灰度方差最大的所述灰度图片作为第二图片;
当所述第一图片的颜色属性信息不满足第一条件时,将所述第一图片压缩并进行灰度化处理,以得到第二图片。
在一实施方式中,第一提取模块102获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并根据所述平均灰度值及所述像素灰度值确定所述第二图片的图片特征字符串,具体包括:
获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并依次将所述第二图片中每个像素点的像素灰度值与所述平均灰度值进行比较;
当所述比较结果为所述像素灰度值大于所述平均灰度值,往数组中存入第一预设字符,否则往所述数组中存入第二预设字符;
依次读取所述数组中的字符元素,得到所述第二图片对应的图片特征字符串。
在一实施方式中,第二提取模块104识别每一所述待识别区域的文字信息,并提取所述文字信息对应的文字特征字符串,具体包括:
识别所述待识别区域中的文字信息;
根据预设的转换关系将所述文字信息转换为对应的文字特征字符串。
请参阅图10,图10为本申请实施例提供的一种计算机设备的结构示意性框图。
如图10所示,计算机设备200包括处理器201和存储器202,处理器201和存储器202通过总线203连接,该总线比如为I2C(Inter-integrated Circuit)总线。
具体地,处理器201用于提供计算和控制能力,支撑整个计算机设备的运行。处理器201可以是中央处理单元(Central Processing Unit,CPU),该处理器201还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
具体地,存储器202可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请实施例方案相关的部分结构的框图,并不构成对本申请实施例方案所应用于计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现本申请实施例提供的任意一种所述的表格查询方法。
在一实施方式中,处理器201用于运行存储在存储器202中的计算机程序,并在执行所述计算机程序时实现如下步骤:
将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息;
识别每一待识别区域的图片,并提取图片对应的图片特征字符串;
根据待识别区域对应的位置信息及图片特征字符串确定表格的第一特征信息;
识别每一待识别区域的文字信息,并提取文字信息对应的文字特征字符串;
根据待识别区域对应的位置信息及文字特征字符串确定表格的第二特征信息;
基于位图算法存储第一特征信息及第二特征信息,以获取表格索引信息;
获取保存表格的地址路径,根据表格索引信息与地址路径建立表格检索模型,以根据表格检索模型建立表格检索数据库;
当接收到表格检索指令时,根据表格检索指令确定待检索信息,并从表格检索数据库中匹配与待检索信息对应的表格。
在一实施方式中,处理器201在将表格分割成多个待识别区域,并记录每一待识别区域对应的位置信息时,包括:
根据预设分割方式对表格进行分割,得到多个待识别区域;
根据每一待识别区域在表格中的相对位置生成对应的位置信息。
在一实施方式中,处理器201在识别每一待识别区域的图片,并提取图片对应的图片特征字符串时,包括:
识别每一待识别区域的图片,以获得第一图片;
获取第一图片的颜色属性信息,并根据颜色属性信息匹配第一图片的图片转换模式,以根据图片转换模式将第一图片转换为第二图片,其中,第一图片及第二图片的图片属性不同;
获取第二图片的平均灰度值及第二图片每个像素点的像素灰度值,并根据平均灰度值及像素灰度值确定第二图片的图片特征字符串。
在一实施方式中,处理器201在获取每一待识别区域的图片,以获得第一图片时,包括:
识别待识别区域中的图片并对图片进行提取,以得到待处理图片;
获取待处理图片的图片属性信息,其中,图片属性信息至少包括图片存储空间;
当待处理图片的存储空间小于或等于预设值,将待处理图片进行压缩处理,以获取第一图片;
当待处理图片的存储空间大于预设值,将待处理图片切割为多个子图片,并对多个子图片进行压缩处理,以获取第一图片。
在一实施方式中,处理器201在根据颜色属性信息匹配第一图片的图片转换模式,以根据图片转换模式将第一图片转换为第二图片时,包括:
当第一图片的颜色属性信息满足第一条件时,将第一图片划分为多个第一子图片,对多个第一子图片进行灰度化处理得到多个灰度化图片,并从中选取灰度方差最大的灰度图片作为第二图片;
当第一图片的颜色属性信息不满足第一条件时,将第一图片压缩并进行灰度化处理,以得到第二图片。
在一实施方式中,处理器201在获取第二图片的平均灰度值及第二图片每个像素点的像素灰度值,并根据平均灰度值及像素灰度值确定第二图片的图片特征字符串时,包括:
获取第二图片的平均灰度值及第二图片每个像素点的像素灰度值,并依次将第二图片中每个像素点的像素灰度值与平均灰度值进行比较;
当比较结果为像素灰度值大于平均灰度值,往数组中存入第一预设字符,否则往数组中存入第二预设字符;
依次读取数组中的字符元素,得到第二图片对应的图片特征字符串。
在一实施方式中,处理器201在识别每一待识别区域的文字信息,并提取文字信息对应的文字特征字符串时,包括:
识别待识别区域中的文字信息;
根据预设的转换关系将文字信息转换为对应的文字特征字符串。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述动物识别方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序可被一个或者多个处理器执行,以实现如本申请实施例说明书提供的任一项表格查询方法的步骤。
其中,所述存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于位图算法的表格查询方法,其特征在于,所述方法包括:
将表格分割成多个待识别区域,并记录每一所述待识别区域对应的位置信息;
识别每一所述待识别区域的图片,并提取所述图片对应的图片特征字符串;
根据所述待识别区域对应的位置信息及所述图片特征字符串确定所述表格的第一特征信息;
识别每一所述待识别区域的文字信息,并提取所述文字信息对应的文字特征字符串;
根据所述待识别区域对应的位置信息及所述文字特征字符串确定所述表格的第二特征信息;
基于位图算法存储所述第一特征信息及所述第二特征信息,以获取表格索引信息;
获取保存所述表格的地址路径,根据所述表格索引信息与所述地址路径建立表格检索模型,以根据所述表格检索模型建立表格检索数据库;
当接收到表格检索指令时,根据所述表格检索指令确定待检索信息,并从所述表格检索数据库中匹配与所述待检索信息对应的表格。
2.根据权利要求1所述的方法,其特征在于,所述将表格分割成多个待识别区域,并记录每一所述待识别区域对应的位置信息,包括:
根据预设分割方式对表格进行分割,得到多个待识别区域;
根据每一所述待识别区域在所述表格中的相对位置生成对应的位置信息。
3.根据权利要求1所述的方法,其特征在于,所述识别每一所述待识别区域的图片,并提取所述图片对应的图片特征字符串,包括:
识别每一所述待识别区域的图片,以获得第一图片;
获取所述第一图片的颜色属性信息,并根据所述颜色属性信息匹配所述第一图片的图片转换模式,以根据所述图片转换模式将所述第一图片转换为第二图片,其中,所述第一图片及所述第二图片的图片属性不同;
获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并根据所述平均灰度值及所述像素灰度值确定所述第二图片的图片特征字符串。
4.根据权利要求3所述的方法,其特征在于,所述获取每一所述待识别区域的图片,以获得第一图片,包括:
识别所述待识别区域中的图片并对所述图片进行提取,以得到待处理图片;
获取所述待处理图片的图片属性信息,其中,所述图片属性信息至少包括图片存储空间;
当所述待处理图片的存储空间小于或等于预设值,将所述待处理图片进行压缩处理,以获取所述第一图片;
当所述待处理图片的存储空间大于所述预设值,将所述待处理图片切割为多个子图片,并对多个所述子图片进行压缩处理,以获取所述第一图片。
5.根据权利要求3所述的方法,其特征在于,所述根据所述颜色属性信息匹配所述第一图片的图片转换模式,以根据所述图片转换模式将所述第一图片转换为第二图片,包括:
当所述第一图片的颜色属性信息满足第一条件时,将所述第一图片划分为多个第一子图片,对多个所述第一子图片进行灰度化处理得到多个灰度化图片,并从中选取灰度方差最大的所述灰度图片作为第二图片;
当所述第一图片的颜色属性信息不满足第一条件时,将所述第一图片压缩并进行灰度化处理,以得到第二图片。
6.根据权利要求3所述的方法,其特征在于,所述获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并根据所述平均灰度值及所述像素灰度值确定所述第二图片的图片特征字符串,包括:
获取所述第二图片的平均灰度值及所述第二图片每个像素点的像素灰度值,并依次将所述第二图片中每个像素点的像素灰度值与所述平均灰度值进行比较;
当所述比较结果为所述像素灰度值大于所述平均灰度值,往数组中存入第一预设字符,否则往所述数组中存入第二预设字符;
依次读取所述数组中的字符元素,得到所述第二图片对应的图片特征字符串。
7.根据权利要求1所述的方法,其特征在于,所述识别每一所述待识别区域的文字信息,并提取所述文字信息对应的文字特征字符串,包括:
识别所述待识别区域中的文字信息;
根据预设的转换关系将所述文字信息转换为对应的文字特征字符串。
8.一种表格查询装置,其特征在于,包括:
表格分割模块,用于将表格分割成多个待识别区域,并记录每一所述待识别区域对应的位置信息;
第一提取模块,用于识别每一所述待识别区域的图片,并提取所述图片对应的图片特征字符串;
第一特征信息确定模块,用于根据所述待识别区域对应的位置信息及所述图片特征字符串确定所述表格的第一特征信息;
第二提取模块,用于识别每一所述待识别区域的文字信息,并提取所述文字信息对应的文字特征字符串;
第二特征信息确定模块,用于根据所述待识别区域对应的位置信息及所述文字特征字符串确定所述表格的第二特征信息;
索引信息获取模块,用于基于位图算法存储所述第一特征信息及所述第二特征信息,以获取所述表格索引信息;
数据库建立模块,用于获取保存所述表格的地址路径,根据所述表格索引信息与所述地址路径建立表格检索模型,以根据所述表格检索模型建立表格检索数据库;
匹配模块,用于当接收到表格检索指令时,根据所述表格检索指令确定待检索信息,并从所述表格检索数据库中匹配与所述待检索信息对应的表格。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的表格查询方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的表格查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110991113.2A CN113626444B (zh) | 2021-08-26 | 2021-08-26 | 基于位图算法的表格查询方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110991113.2A CN113626444B (zh) | 2021-08-26 | 2021-08-26 | 基于位图算法的表格查询方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626444A true CN113626444A (zh) | 2021-11-09 |
CN113626444B CN113626444B (zh) | 2023-11-28 |
Family
ID=78388024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110991113.2A Active CN113626444B (zh) | 2021-08-26 | 2021-08-26 | 基于位图算法的表格查询方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626444B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387600A (zh) * | 2022-01-19 | 2022-04-22 | 中国平安人寿保险股份有限公司 | 文本特征识别方法、装置、计算机设备和存储介质 |
CN115329010A (zh) * | 2022-10-11 | 2022-11-11 | 深圳市瓴码云计算有限公司 | 一种分布式关系型数据库的数据处理方法 |
WO2023134064A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 图片特征提取方法、装置、存储介质及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323901A1 (en) * | 2010-02-26 | 2012-12-20 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
CN110162672A (zh) * | 2019-05-10 | 2019-08-23 | 上海赜睿信息科技有限公司 | 数据处理方法及装置、电子设备和可读存储介质 |
CN110334585A (zh) * | 2019-05-22 | 2019-10-15 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN112100426A (zh) * | 2020-09-22 | 2020-12-18 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
-
2021
- 2021-08-26 CN CN202110991113.2A patent/CN113626444B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323901A1 (en) * | 2010-02-26 | 2012-12-20 | Rakuten, Inc. | Information processing device, information processing method, and recording medium that has recorded information processing program |
CN110162672A (zh) * | 2019-05-10 | 2019-08-23 | 上海赜睿信息科技有限公司 | 数据处理方法及装置、电子设备和可读存储介质 |
CN110334585A (zh) * | 2019-05-22 | 2019-10-15 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN112100426A (zh) * | 2020-09-22 | 2020-12-18 | 哈尔滨工业大学(深圳) | 基于视觉和文本特征的通用表格信息检索的方法与系统 |
Non-Patent Citations (1)
Title |
---|
何晓明;洪亲;蔡坚勇;林鸿;: "基于n-gram中英文字符串分割算法实现", 电脑知识与技术, no. 23 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023134064A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 图片特征提取方法、装置、存储介质及计算机设备 |
CN114387600A (zh) * | 2022-01-19 | 2022-04-22 | 中国平安人寿保险股份有限公司 | 文本特征识别方法、装置、计算机设备和存储介质 |
CN115329010A (zh) * | 2022-10-11 | 2022-11-11 | 深圳市瓴码云计算有限公司 | 一种分布式关系型数据库的数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113626444B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909725B (zh) | 识别文本的方法、装置、设备及存储介质 | |
CN113626444B (zh) | 基于位图算法的表格查询方法、装置、设备及介质 | |
CN110147722A (zh) | 一种视频处理方法、视频处理装置及终端设备 | |
CN108241645B (zh) | 图像处理方法及装置 | |
US7277584B2 (en) | Form recognition system, form recognition method, program and storage medium | |
CN104298982A (zh) | 一种文字识别方法及装置 | |
CN109583438B (zh) | 电子图像的文字的识别方法及图像处理装置 | |
US8290255B2 (en) | Image processing method, image processing apparatus, and program | |
CN111444976A (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
CN111507324A (zh) | 卡片边框识别方法、装置、设备和计算机存储介质 | |
CN106557549A (zh) | 识别目标对象的方法和装置 | |
CN110728687A (zh) | 文件图像分割方法、装置、计算机设备和存储介质 | |
CN110866457A (zh) | 一种电子保单的获得方法、装置、计算机设备和存储介质 | |
CN111709303A (zh) | 一种人脸图像的识别方法和装置 | |
CN111695453A (zh) | 绘本识别方法、装置及机器人 | |
CN114299363A (zh) | 图像处理模型的训练方法、图像分类方法及装置 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
CN113723410A (zh) | 一种数码管数字识别方法及装置 | |
CN108536769B (zh) | 图像分析方法、搜索方法及装置、计算机装置及存储介质 | |
JP6151908B2 (ja) | 学習装置、識別装置、およびそのプログラム | |
WO2000065839A1 (en) | Color image segmentation method | |
CN111178409B (zh) | 基于大数据矩阵稳定性分析的图像匹配与识别系统 | |
KR101758869B1 (ko) | 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법 | |
CN112580452A (zh) | 故障树的处理方法、装置、计算机可读存储介质以及处理器 | |
CN111986176A (zh) | 一种裂纹图像识别方法、系统、终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |