CN110765079A - 一种表格信息的搜索方法及装置 - Google Patents
一种表格信息的搜索方法及装置 Download PDFInfo
- Publication number
- CN110765079A CN110765079A CN201810846525.5A CN201810846525A CN110765079A CN 110765079 A CN110765079 A CN 110765079A CN 201810846525 A CN201810846525 A CN 201810846525A CN 110765079 A CN110765079 A CN 110765079A
- Authority
- CN
- China
- Prior art keywords
- search
- searched
- command
- information
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种表格信息的搜索方法及装置,其中,该搜索方法包括:获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息;并将确定的坐标信息对应的内容信息确定为搜索结果。本申请实现了对表格信息的有效搜索,从而可以进一步利用搜索结果对承载有表格信息的PDF文档进行分析,适用性更强。
Description
技术领域
本申请涉及文档处理技术领域,具体而言,涉及一种表格信息的搜索方法及装置。
背景技术
随着计算机技术的不断发展,无纸化办公得到越来越多的应用,各种各样的文档出现在用户的面前。如用户可以通过查阅元件规格书所对应的文档,来查找相关元器件的参数信息,如查找电阻这一元器件所对应的文档,以得到电阻值、额定功率、允许误差、温度系统等参数。
其中,上述元件规格书大多情况下是以可移植文档格式(Portable DocumentFormat,PDF)文档来呈现的,尽管该PDF文档具有可移植性,但是从PDF文档中提取某些特定部件是比较困难的。比如,由于在PDF文档的格式说明书中,并没有表格的概念和相应的部件,这使得从PDF中搜索表格非常困难。然而,考虑到表格是由线段和文字组成,可以预期的是,从PDF文档中搜索表格信息将在文档重用以及文档检索等领域有广泛应用。
可见,亟需一种从PDF文档中搜索表格信息的技术方案以满足当前无纸化办公的市场需求。
发明内容
有鉴于此,本申请的目的在于提供一种表格信息的搜索方法及装置,以实现对PDF文档中表格信息的搜索,适用性较好。
第一方面,本申请实施例提供了一种表格信息的搜索方法,包括:
获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;
根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;
通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息;并
将确定的坐标信息对应的内容信息确定为搜索结果。
结合第一方面,本申请提供了第一方面的第一种可能的实施方式,其中,所述搜索策略包括根据所述待搜索表格的结构、和/或所述待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序;以及为确定各搜索关键字的位置,使用的搜索命令;
根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令,包括:
对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在所述待搜索表格中的位置特征;
根据所述搜索策略,确定对所述搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
按照所述处理顺序对确定的搜索命令排序,得到对所述待搜索表格内容进行搜索采用的搜索命令组。
结合第一方面或第一方面的第一种可能的实施方式,本申请提供了第一方面的第二种可能的实施方式,其中,所述搜索命令包括行正向搜索命令和定位标注命令;
所述通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定所述行正向搜索命令中指示的起始单元格的起始坐标信息和正向搜索顺序;
从与所述起始单元格对应的起始坐标开始,对所述待搜索表格中的其他单元格按照所述正向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于所述定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定所述待搜索目标内容所在目标单元格在所述待搜索表格中的坐标信息。
结合第一方面或第一方面的第一种可能的实施方式,本申请提供了第一方面的第三种可能的实施方式,其中,所述搜索命令包括行反向搜索命令和定位标注命令;
所述通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定所述行反向搜索命令中指示的终止单元格的终止坐标信息和反向搜索顺序;
从与所述终止单元格对应的终止坐标开始,对所述待搜索表格中的其他单元格按照所述反向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于所述定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定所述待搜索目标内容所在目标单元格在所述待搜索表格中的坐标信息。
结合第一方面或第一方面的第一种可能的实施方式,本申请提供了第一方面的第四种可能的实施方式,其中,所述搜索命令包括列搜索命令和定位标注命令;
所述通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定所述列搜索命令中指示的当前单元格的当前坐标信息和列搜索顺序;
从与所述当前单元格所在行的下一行开始,对所述待搜索表格按照所述列搜索顺序进行遍历搜索,确定包含目标搜索关键字且与所述当前单元格距离最小的目标单元格;
基于所述定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定所述待搜索目标内容所在目标单元格在所述待搜索表格中的坐标信息。
结合第一方面或第一方面的第一种可能的实施方式,本申请提供了第一方面的第五种可能的实施方式,其中,所述搜索命令包括取值命令;
将确定的坐标信息对应的内容信息确定为搜索结果,包括:
执行所述取值命令,将确定的坐标信息对应的内容信息提取,并作为搜索结果。
结合第一方面,本申请提供了第一方面的第六种可能的实施方式,其中,还包括:
通过如下任意一种或任意多种处理方式对所述搜索结果进行处理:
持久化存储处理方式、预设特征信息提取处理方式、表达式计算处理方式、字符串拆分处理方式、字符串联接处理方式和文本映射处理方式;
其中,所述持久化存储处理方式包括将所述搜索结果进行存储;
所述预设特征信息提取处理方式包括从所述搜索结果中提取具有预设特征的信息;
所述表达式计算处理方式包括将所述搜索结果作为自变量输入至预设表达式,输出对应的计算结果;
所述字符串拆分处理方式包括按照预设拆分规则将所述搜索结果进行拆分;
所述字符串联接处理方式包括按照预设联接规则将所述搜索结果与待联接信息进行联接;
所述文本映射处理方式包括按照预设映射规则将所述搜索结果进行文本映射。
第二方面,本申请还提供了一种表格信息的搜索装置,包括:
信息获取模块,用于获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;
命令确定模块,用于根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;
坐标确定模块,用于通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息;
信息搜索模块,用于将确定的坐标信息对应的内容信息确定为搜索结果。
结合第二方面,本申请提供了第二方面的第一种可能的实施方式,其中,所述搜索策略包括根据所述待搜索表格的结构、和/或所述待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序;以及为确定各搜索关键字的位置,使用的搜索命令;
所述命令确定模块,具体用于:
对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在所述待搜索表格中的位置特征;
根据所述搜索策略,确定对所述搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
按照所述处理顺序对确定的搜索命令排序,得到对所述待搜索表格内容进行搜索采用的搜索命令组。
结合第二方面,本申请提供了第二方面的第二种可能的实施方式,其中,还包括:
处理模块,用于通过如下任意一种或任意多种处理方式对所述搜索结果进行处理:
持久化存储处理方式、预设特征信息提取处理方式、表达式计算处理方式、字符串拆分处理方式、字符串联接处理方式和文本映射处理方式;
其中,所述持久化存储处理方式包括将所述搜索结果进行存储;
所述预设特征信息提取处理方式包括从所述搜索结果中提取具有预设特征的信息;
所述表达式计算处理方式包括将所述搜索结果作为自变量输入至预设表达式,输出对应的计算结果;
所述字符串拆分处理方式包括按照预设拆分规则将所述搜索结果进行拆分;
所述字符串联接处理方式包括按照预设联接规则将所述搜索结果与待联接信息进行联接;
所述文本映射处理方式包括按照预设映射规则将所述搜索结果进行文本映射。
本申请实施例提供的表格信息的搜索方法,其首先获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;然后根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;最后通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息;并将确定的坐标信息对应的内容信息确定为搜索结果。通过本申请实施例提供的表格信息的搜索方法及装置,其通过待搜索表格的预设搜索策略确定对表格内容进行搜索所能够采用的搜索命令,并通过执行该搜索命令对待搜索目标内容信息进行搜索,以得到对应的搜索结果,也即,其实现了对表格信息的有效搜索,从而可以进一步利用搜索结果对承载有表格信息的PDF文档进行分析,适用性更强。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种表格信息的搜索方法的流程图;
图2示出了本申请实施例所提供的另一种表格信息的搜索方法的流程图;
图3示出了本申请实施例所提供的另一种表格信息的搜索方法的流程图;
图4示出了本申请实施例所提供的一种行正向搜索方法的应用示意图;
图5示出了本申请实施例所提供的另一种表格信息的搜索方法的流程图;
图6示出了本申请实施例所提供的一种行反向搜索方法的应用示意图;
图7示出了本申请实施例所提供的另一种表格信息的搜索方法的流程图;
图8示出了本申请实施例所提供的一种列搜索方法的应用示意图;
图9示出了本申请实施例所提供的一种搜索取值方法的应用示意图;
图10示出了本申请实施例所提供的一种表格信息的搜索装置的结构示意图;
图11示出了本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到由于在PDF文档的格式说明书中,并没有表格的概念和相应的部件,这使得从PDF中搜索表格非常困难,从而亟需一种从PDF文档中搜索表格信息的技术方案。基于此,本申请一种实施例提供了一种表格信息的搜索方法,以实现对PDF文档中表格信息的搜索,适用性较好,详见下述实施例。
如图1所示,为本申请实施例提供的表格信息的搜索方法的流程图,该搜索方法的执行主体可以是计算机设备,具体包括如下步骤:
S101、获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息。
这里,在对待搜索表格进行信息搜索之前,本申请实施例将获取该待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息,这样,便可以将获取的内容信息和坐标信息作为参考信息,对待搜索表格中的任一待搜索目标内容进行搜索。
其中,上述单元格的内容信息可以是数字信息、符号信息、文本信息,还可以是其他内容信息。对于每个单元格的坐标信息,不仅可以由待搜索表格的行数和列数来确定,还可以由预先建立的直角坐标系来确定。针对第一种确定方式而言,举例如下:对应于待搜索表格的第二行第三列的一个单元格,其对应的坐标信息中横坐标信息可以是2,纵坐标信息可以是3;针对第二种确定方式而言,举例如下:在单元格位于预先建立的直角坐标系的坐标点(2,3)时,可以直接将(2,3)分别作为该单元格的横坐标信息和纵坐标信息。
S102、根据预先确定的针对待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令。
这里,对于不同的待搜索表格,其对应的搜索策略也不同。相应的,搜索策略不同,其确定的对表格内容进行搜索采用的搜索命令也不同。也即,本申请实施例可以通过预先确定的针对每个待搜索表格的搜索策略,确定对该待搜索表格搜索相关表格内容的搜索命令。
其中,上述搜索策略不仅可以包括根据待搜索表格的结构、和/或待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序,还可以包括为确定各搜索关键字的位置,使用的搜索命令。也即,本申请实施例可以预先为搜索关键字确定对应的处理顺序以及对应的搜索命令。其中,在搜索关键字所处待搜索表格的位置不同时,其所对应的处理顺序以及为确定相应位置而选用的搜索命令也是不同的。可见,本申请实施例能够充分根据搜索关键字所处位置来灵活确定对应的搜索命令。
进一步地,不同的表格具有不同的结构,例如,有的表格具有一个行表头,有的表格具有多个行表头等,针对不同的结构,如果要搜索到表格中的内容信息对应的搜索策略可以不同。下面举例说明:
表1为型号分别为S11、S21、S12、S22的电子元器件,在频率从0.1GHz到5.5GHz下,参数Mag和参数Ang分别对应的参数值。
对于表1来说,具有两个行表头:第一行表头包括:Freq、S11、S21、S12、S22,第二行表头包括:GHz、Mag、Ang等,一个列表头:Freq、GHz、0.1、0.2等,行表头和列表头交叉表头包括:Freq、GHz。
在对表1中内容信息进行检索时,在从表1所在文件中定位到表1之后,较佳地,可以通过列表头的行坐标(位于第几行)和第二行表头的列坐标(位于第几列)定位表1中的信息内容。那么,针对表1指定的策略就可以包括:先搜索列表头,对待搜索内容行坐标进行定位,再搜索第一行表头,从定位的第一行表头列搜索第二行表头(因为这里如果采用行搜索可能会定位到其他第一行表头下的相同第二行表头导致搜索内容错误),对待搜索内容坐标进行列定位,并且第一行表头不同位置表头可以采用正向搜索或者反向搜索。
表1:
进一步地,同一文件中所包含的表格结构通常是相同的,针对这种情况,可以预先确定针对待搜索表格所在文件的搜索策略。当然,在文件中搜索表格内容时,需要先搜索到表格,再对表格内容进行搜索,这里不再赘述。
S103、通过执行确定的搜索命令,确定待搜索目标内容信息对应的坐标信息。
这里,本申请实施例可以通过执行针对目标搜索关键字的搜索命令,确定与该目标搜索关键字对应待搜索目标内容信息对应的坐标信息。其中,该目标搜索关键字可以是用户提供的,也可以是根据用户的实际需求自动生成的。
S104、将确定的坐标信息对应的内容信息确定为搜索结果。
在基于上述步骤103确定了与待搜索目标内容信息对应的坐标信息后,便可以依赖于步骤101所获取的待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息,确定与待搜索目标内容信息的坐标信息对应的内容信息,并可以将该内容信息作为最终的搜索结果,从而实现对待搜索目标内容信息的搜索。
本申请实施例可以基于待搜索表格的搜索策略,确定搜索表格内容的搜索命令,如图2所示,该搜索命令的确定过程具体通过如下步骤实现:
S201、对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在待搜索表格中的位置特征;
S202、根据搜索策略,确定对搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
S203、按照处理顺序对确定的搜索命令排序,得到对待搜索表格内容进行搜索采用的搜索命令组。
这里,本申请实施例可以首先对搜索指示中包含的搜索关键字进行解析以得到搜索关键字在待搜索表格中的位置信息,然后根据搜索策略便可以确定对各搜索关键字的处理顺序以及为搜索每个搜索关键字所使用的搜索命令,最后按照确定的处理顺对各搜索命令进行排序,便可以得到对待搜索表格内容进行搜索采用的搜索命令组。也即,本申请实施例中,对于一个待搜索表格内容而言,其可以对应有多个搜索关键字,在确定了针对每个搜索关键字的搜索命令后,便可以再根据各搜索关键字的处理顺序确定对应于待搜索表格内容的搜索命令组。这样,针对待搜索表格的每一待搜索表格内容均可以对应有相应的搜索命令组,通过相应的搜索命令组,便可以搜索到对应的待搜索表格内容。
延续表1的例子,假设需要搜索S12型号元器件,频率0.6下Mag参数的参数值,搜索指示包含的搜索关键字可以包括:S12、Freq=0.6GHz、Mag。那么根据表1的搜索策略,确定对搜索关键字的处理顺序为:Freq、Ghz、0.6、S12、mag。根据各搜索关键字对应的搜索命令,得到搜索命令组及其注释如表2所示:
表2
命令集合 | 注释 |
search freq | 搜索freq |
search ghz | 搜索ghz |
[mark]search_col mag | 列搜索0.6,并标注纵坐标 |
search left s12 | (反向)搜索s12 |
[mark]search_col mag | 列搜索mag,并标注横坐标 |
take var_1 | 取值,并存入变量var_1 |
Result.save var_1 | 将var_1的值进行持久化 |
值得说明的是,本申请实施例中的搜索指示所包括的搜索关键字可以是用户根据实际经验确定的,还可以是自动生成的,不管哪种确定方式,本申请实施例均可以对上述搜索关键字进行解析以确定该搜索关键字对应的位置特性。
为了实现待搜索目标内容信息的搜索,本申请实施例需要先通过相应搜索命令的执行来确定该待搜索目标内容信息对应的坐标信息。为了便于确定该坐标信息,需要首先通过相关搜索命令对该待搜索目标内容信息对应的目标搜索关键字进行搜索,然后再基于定位标注命令进行定位标注以确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。其中,本申请实施例中不仅可以基于行正向搜索命令进行搜索,还可以基于行反向搜索命令进行搜索,还可以基于列搜索命令进行搜索,接下来分三个方面进行具体的阐述。
第一方面,可以采用行正向搜索命令进行目标搜索关键字的搜索以确定待搜索目标内容信息对应的坐标信息。如图3所示,为本申请实施例提供的一种确定坐标信息的方法的流程图,该方法具体包括如下步骤:
S301、确定行正向搜索命令中指示的起始单元格的起始坐标信息和正向搜索顺序;
S302、从与起始单元格对应的起始坐标开始,对待搜索表格中的其他单元格按照正向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
S303、基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
S304、根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
这里,在确定行正向搜索命令中指示的起始单元格的起始坐标信息和正向搜索顺序后,便可以从起始坐标位置开始对待搜索表格中的其他单元格按照正向搜索顺序进行遍历搜索,直至在搜索到与待搜索目标内容相对应的目标搜索关键字后停止搜索。这样,基于定位标注命令可以对上述目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注,根据定位标注结果,便可以确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。也即,本申请实施例在明确了按照正向搜索顺序搜索到的目标搜索关键字以及该目标搜索关键字所对应的待搜索目标内容的定位标注结果,便可以确定待搜索目标内容所在目标单元格的坐标信息。
其中,上述正向搜索顺序可以是从上到下,从左到右的搜索顺序,且在按照正向搜索顺序进行搜索时,需要指定一个起始单元格的起始坐标信息,以便于从该起始坐标执行正向搜索。其中,上述起始单元格可以是待搜索单元格第一行第一列所属的单元格,还可以是基于指定的参考单元格确定的。
如图4所示,本申请实施例中,如果不存在参考的单元格位置,则可以按照行正向搜索命令从待搜索表格的起始位置,也即第一行第一列的单元格(标号0)所处位置进行目标搜索关键字的搜索,且可以按照从上到下,从左到右方向(如标号0至标号4的箭头指向)进行搜索,直到搜索到与目标搜索关键字对应的单元格(标号4)。如果存在参考的单元格位置,则可以按照行正向搜索命令以参考的单元格(标号0)所处位置为出发点进行目标搜索关键字搜索,且可以按照从上到下,从左到右方向(如标号0至标号4的箭头指向)搜索,直到搜索到与目标搜索关键字对应的单元格(标号4),以满足不同的行正向搜索需求。
第二方面,可以采用行反向搜索命令进行目标搜索关键字的搜索以确定待搜索目标内容信息对应的坐标信息。如图5所示,为本申请实施例提供的又一种确定坐标信息的方法的流程图,该方法具体包括如下步骤:
S501、确定行反向搜索命令中指示的终止单元格的终止坐标信息和反向搜索顺序;
S502、从与终止单元格对应的终止坐标开始,对待搜索表格中的其他单元格按照反向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
S503、基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
S504、根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
这里,在确定行反向搜索命令中指示的终止单元格的终止坐标信息和反向搜索顺序后,便可以从终止坐标位置开始对待搜索表格中的其他单元格按照反向搜索顺序进行遍历搜索,直至在搜索到与待搜索目标内容相对应的目标搜索关键字后停止搜索。同样的,基于定位标注命令也可以对上述目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注,根据定位标注结果,便可以确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。也即,本申请实施例在明确了按照反向搜索顺序搜索到的目标搜索关键字以及该目标搜索关键字所对应的待搜索目标内容的定位标注结果,便可以确定待搜索目标内容所在目标单元格的坐标信息。
其中,上述反向搜索顺序与正向搜索顺序相反,其可以是从下到上,从右到左的搜索顺序。在按照反向搜索顺序进行搜索时,需要指定一个终止单元格的终止坐标信息,以便于从该终止坐标执行反向搜索。其中,上述终止单元格可以是待搜索单元格最后一行最后一列所属的单元格,还可以是基于指定的参考单元格确定的。
如图6所示,本申请实施例中,如果不存在参考的单元格位置,则可以按照行反向搜索命令从待搜索表格的终止位置,也即最后一行最后一列的单元格(标号0)所处位置进行目标搜索关键字的搜索,且可以按照从下到上,从右到左方向(如标号0至标号4的箭头指向)搜索,直到搜索到与目标搜索关键字对应的单元格(标号4)。如果存在参考的单元格位置,则可以按照行反向搜索命令以参考的单元格(标号0)所处位置为出发点进行目标搜索关键字的搜索,且可以按照从下到上,从右到左方向(如标号0至标号4的箭头指向)搜索,直到搜索到与目标搜索关键字对应的单元格(标号4),以满足不同的行反向搜索需求。
第三方面,可以采用列搜索命令进行目标搜索关键字的搜索以确定待搜索目标内容信息对应的坐标信息。如图7所示,为本申请实施例提供的一种确定坐标信息的方法的流程图,该方法具体包括如下步骤:
S701、确定列搜索命令中指示的当前单元格的当前坐标信息和列搜索顺序;
S702、从与当前单元格所在行的下一行开始,对待搜索表格按照列搜索顺序进行遍历搜索,确定包含目标搜索关键字且与当前单元格距离最小的目标单元格;
S703、基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
S704、根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
这里,在确定列搜索命令中指示的当前单元格的当前坐标信息和列搜索顺序后,便可以从当前单元格所在行的下一行开始对待搜索表格按照列搜索顺序进行遍历搜索,以确定包含目标搜索关键字且与当前单元格距离最小的目标单元格。这样,基于定位标注命令便可以对上述目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注,根据定位标注结果,便可以确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。也即,本申请实施例在明确了按照列搜索顺序搜索到包含目标搜索关键字的目标单元格以及该目标搜索关键字所对应的待搜索目标内容的定位标注结果,便可以确定待搜索目标内容所在目标单元格的坐标信息。
对于待搜索表格的某一行存在相同的多个目标搜索关键字的情况,如表1所示,S11、S21、S12、S22等四个电子元器件,均包括Mag这一参数,也即,在表1的第二行存在相同的4个Mag参数,如果按照行方向搜索命令(即行正向搜索命令或行反向搜索命令)进行搜索,尽管可以搜索到每个Mag参数所处的单元格,但无法确定上述四个Mag参数中的哪个Mag参数所处的单元格为待搜索的目标单元格,此时,便可以利用上述列搜索命令进行目标单元格的搜索,以实现跨列搜索,适用性更佳。
如图8所示,上述列搜索顺序可以是以当前定位的单元格(标号A和标号B交叉位置所处单元格)所在行的下一行开始,从上至下,从左至右计算各个单元格(标号0、标号1和标号2)与当前定位的单元格的距离,分别为d0、d1、d2,可以取距离最小的单元格(标号1)作为目标单元格。
本申请实施例提供的表格信息的搜索方法不仅可以基于上述三个方面分别所采用搜索命令进行目标搜索关键字的搜索以确定待搜索目标内容信息对应的坐标信息,还可以将上述三个方面所采用的搜索命令进行结合(如先进行行正向搜索再进行列搜索)以实现对坐标信息的确定,具体过程参见上述内容描述(如表2所示的搜索命令组),在此不再赘述。
本申请实施例中,在搜索命令包括取值命令时,可以通过执行取值命令,将确定的坐标信息对应的内容信息提取,并作为搜索结果。
如图9所示,本申请实施例中,可以通过两个定位标注命令确定目标单元格(标号A和标号B交叉位置所处单元格)的位置,并在对目标单元格进行定位标注后,进行取值操作。
此外,本申请实施例提供的表格信息的搜索方法还可以对搜索结果进一步进行处理。本申请实施例中,可以按照持久化存储处理方式进行处理,该处理方式可以是将搜索结果进行存储,以方便后续进行结果检索或再处理;还可以按照预设特征信息提取处理方式进行处理,该处理方式可以是从搜索结果中提取具有预设特征的信息,如从搜索结果中提取出数字信息,并可以按照数字出现的先后顺序进行输出;还可以按照表达式计算处理方式进行处理,该处理方式可以是将搜索结果作为自变量输入至预设表达式,输出对应的计算结果,如实现单位换算、极值计算;还可以按照字符串拆分处理方式进行处理,该处理方式可以是按照预设拆分规则将搜索结果进行拆分,如基于逗号、空格等对检索结果进行字符串拆分;还可以按照字符串联接处理方式进行处理,该处理方式可以是按照预设联接规则将搜索结果与待联接信息进行联接,如通过逗号、空格等对检索结果进行字符串联接;还可以按照文本映射处理方式进行处理,该处理方式可以是按照预设映射规则将搜索结果进行文本映射,如将“first channel”转换为“第一通道”。除此之外,本申请实施例还可以按照其他处理方式对上述搜索结果进行处理,本申请实施例对此不做具体的限制。
基于同一发明构思,本申请实施例中还提供了与表格信息的搜索方法对应的表格信息的搜索装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述表格信息的搜索方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图10所示,为本申请实施例所提供的表格信息的搜索装置的结构示意图,该表格信息的搜索装置包括:
信息获取模块1001,用于获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;
命令确定模块1002,用于根据预先确定的针对待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;
坐标确定模块1003,用于通过执行确定的搜索命令,确定待搜索目标内容信息对应的坐标信息;
信息搜索模块1004,用于将确定的坐标信息对应的内容信息确定为搜索结果。
在一种实施方式中,搜索策略包括根据待搜索表格的结构、和/或待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序;以及为确定各搜索关键字的位置,使用的搜索命令;
命令确定模块1002,具体用于:
对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在待搜索表格中的位置特征;
根据搜索策略,确定对搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
按照处理顺序对确定的搜索命令排序,得到对待搜索表格内容进行搜索采用的搜索命令组。
在另一种实施方式中,搜索命令包括行正向搜索命令和定位标注命令;坐标确定模块1003,具体用于:
确定行正向搜索命令中指示的起始单元格的起始坐标信息和正向搜索顺序;
从与起始单元格对应的起始坐标开始,对待搜索表格中的其他单元格按照正向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
在又一种实施方式中,搜索命令包括行反向搜索命令和定位标注命令;坐标确定模块1003,具体用于:
确定行反向搜索命令中指示的终止单元格的终止坐标信息和反向搜索顺序;
从与终止单元格对应的终止坐标开始,对待搜索表格中的其他单元格按照反向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
在再一种实施方式中,搜索命令包括列搜索命令和定位标注命令;坐标确定模块1003,具体用于:
确定列搜索命令中指示的当前单元格的当前坐标信息和列搜索顺序;
从与当前单元格所在行的下一行开始,对待搜索表格按照列搜索顺序进行遍历搜索,确定包含目标搜索关键字且与当前单元格距离最小的目标单元格;
基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
在再一种实施方式中,搜索命令包括取值命令;信息搜索模块1004,具体用于:
执行取值命令,将确定的坐标信息对应的内容信息提取,并作为搜索结果。
在再一种实施方式中,上述表格信息的搜索装置还包括:
处理模块1005,用于通过如下任意一种或任意多种处理方式对搜索结果进行处理:
持久化存储处理方式、预设特征信息提取处理方式、表达式计算处理方式、字符串拆分处理方式、字符串联接处理方式和文本映射处理方式;
其中,持久化存储处理方式包括将搜索结果进行存储;
预设特征信息提取处理方式包括从搜索结果中提取具有预设特征的信息;
表达式计算处理方式包括将搜索结果作为自变量输入至预设表达式,输出对应的计算结果;
字符串拆分处理方式包括按照预设拆分规则将搜索结果进行拆分;
字符串联接处理方式包括按照预设联接规则将搜索结果与待联接信息进行联接;
文本映射处理方式包括按照预设映射规则将搜索结果进行文本映射。
如图11所示,为本申请一种实施例所提供的一种计算机设备的结构示意图,该计算机设备包括:处理器1101、存储器1102和总线1103,存储器1102存储有处理器1101可执行的机器可读指令,当计算机设备运行时,处理器1101与存储器1102之间通过总线1103通信,机器可读指令被处理器1101执行时执行如下处理:
获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;
根据预先确定的针对待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;
通过执行确定的搜索命令,确定待搜索目标内容信息对应的坐标信息;并
将确定的坐标信息对应的内容信息确定为搜索结果。
在一种实施方式中,搜索策略包括根据待搜索表格的结构、和/或待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序;以及为确定各搜索关键字的位置,使用的搜索命令;上述处理器1101执行的处理中,根据预先确定的针对待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令,包括:
对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在待搜索表格中的位置特征;
根据搜索策略,确定对搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
按照处理顺序对确定的搜索命令排序,得到对待搜索表格内容进行搜索采用的搜索命令组。
在另一种实施方式中,搜索命令包括行正向搜索命令和定位标注命令;上述处理器1101执行的处理中,通过执行确定的搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定行正向搜索命令中指示的起始单元格的起始坐标信息和正向搜索顺序;
从与起始单元格对应的起始坐标开始,对待搜索表格中的其他单元格按照正向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
在又一种实施方式中,搜索命令包括行反向搜索命令和定位标注命令;上述处理器1101执行的处理中,通过执行确定的搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定行反向搜索命令中指示的终止单元格的终止坐标信息和反向搜索顺序;
从与终止单元格对应的终止坐标开始,对待搜索表格中的其他单元格按照反向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
在再一种实施方式中,搜索命令包括列搜索命令和定位标注命令;上述处理器1101执行的处理中,通过执行确定的搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定列搜索命令中指示的当前单元格的当前坐标信息和列搜索顺序;
从与当前单元格所在行的下一行开始,对待搜索表格按照列搜索顺序进行遍历搜索,确定包含目标搜索关键字且与当前单元格距离最小的目标单元格;
基于定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定待搜索目标内容所在目标单元格在待搜索表格中的坐标信息。
在再一种实施方式中,搜索命令包括取值命令;上述处理器1101执行的处理中,将确定的坐标信息对应的内容信息确定为搜索结果,包括:
执行取值命令,将确定的坐标信息对应的内容信息提取,并作为搜索结果。
在再一种实施方式中,上述处理器1101执行的处理还包括:
通过如下任意一种或任意多种处理方式对搜索结果进行处理:
持久化存储处理方式、预设特征信息提取处理方式、表达式计算处理方式、字符串拆分处理方式、字符串联接处理方式和文本映射处理方式;
其中,持久化存储处理方式包括将搜索结果进行存储;
预设特征信息提取处理方式包括从搜索结果中提取具有预设特征的信息;
表达式计算处理方式包括将搜索结果作为自变量输入至预设表达式,输出对应的计算结果;
字符串拆分处理方式包括按照预设拆分规则将搜索结果进行拆分;
字符串联接处理方式包括按照预设联接规则将搜索结果与待联接信息进行联接;
文本映射处理方式包括按照预设映射规则将搜索结果进行文本映射。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器1101运行时执行上述表格信息的搜索方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述表格信息的搜索方法,实现了对表格信息的有效搜索,从而可以进一步利用搜索结果对承载有表格信息的PDF文档进行分析,适用性更强的效果。
本申请实施例所提供的表格信息的搜索方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种表格信息的搜索方法,其特征在于,包括:
获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;
根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;
通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息;并
将确定的坐标信息对应的内容信息确定为搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述搜索策略包括根据所述待搜索表格的结构、和/或所述待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序;以及为确定各搜索关键字的位置,使用的搜索命令;
根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令,包括:
对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在所述待搜索表格中的位置特征;
根据所述搜索策略,确定对所述搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
按照所述处理顺序对确定的搜索命令排序,得到对所述待搜索表格内容进行搜索采用的搜索命令组。
3.根据权利要求1或2所述的方法,其特征在于,所述搜索命令包括行正向搜索命令和定位标注命令;
所述通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定所述行正向搜索命令中指示的起始单元格的起始坐标信息和正向搜索顺序;
从与所述起始单元格对应的起始坐标开始,对所述待搜索表格中的其他单元格按照所述正向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于所述定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定所述待搜索目标内容所在目标单元格在所述待搜索表格中的坐标信息。
4.根据权利要求1或2所述的方法,其特征在于,所述搜索命令包括行反向搜索命令和定位标注命令;
所述通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定所述行反向搜索命令中指示的终止单元格的终止坐标信息和反向搜索顺序;
从与所述终止单元格对应的终止坐标开始,对所述待搜索表格中的其他单元格按照所述反向搜索顺序进行遍历搜索,直至搜索到目标搜索关键字;
基于所述定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定所述待搜索目标内容所在目标单元格在所述待搜索表格中的坐标信息。
5.根据权利要求1或2所述的方法,其特征在于,所述搜索命令包括列搜索命令和定位标注命令;
所述通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息,包括:
确定所述列搜索命令中指示的当前单元格的当前坐标信息和列搜索顺序;
从与所述当前单元格所在行的下一行开始,对所述待搜索表格按照所述列搜索顺序进行遍历搜索,确定包含目标搜索关键字且与所述当前单元格距离最小的目标单元格;
基于所述定位标注命令对搜索到的目标搜索关键字的坐标信息所表征的待搜索目标内容的行坐标和/或列坐标进行定位标注;
根据待搜索目标内容的行坐标和列坐标的定位标注结果,确定所述待搜索目标内容所在目标单元格在所述待搜索表格中的坐标信息。
6.根据权利要求1或2所述的方法,其特征在于,所述搜索命令包括取值命令;
将确定的坐标信息对应的内容信息确定为搜索结果,包括:
执行所述取值命令,将确定的坐标信息对应的内容信息提取,并作为搜索结果。
7.根据权利要求1所述的方法,其特征在于,还包括:
通过如下任意一种或任意多种处理方式对所述搜索结果进行处理:
持久化存储处理方式、预设特征信息提取处理方式、表达式计算处理方式、字符串拆分处理方式、字符串联接处理方式和文本映射处理方式;
其中,所述持久化存储处理方式包括将所述搜索结果进行存储;
所述预设特征信息提取处理方式包括从所述搜索结果中提取具有预设特征的信息;
所述表达式计算处理方式包括将所述搜索结果作为自变量输入至预设表达式,输出对应的计算结果;
所述字符串拆分处理方式包括按照预设拆分规则将所述搜索结果进行拆分;
所述字符串联接处理方式包括按照预设联接规则将所述搜索结果与待联接信息进行联接;
所述文本映射处理方式包括按照预设映射规则将所述搜索结果进行文本映射。
8.一种表格信息的搜索装置,其特征在于,包括:
信息获取模块,用于获取待搜索表格中各单元格的内容信息,以及对应单元格的坐标信息;
命令确定模块,用于根据预先确定的针对所述待搜索表格的搜索策略,确定对表格内容进行搜索采用的搜索命令;
坐标确定模块,用于通过执行确定的所述搜索命令,确定待搜索目标内容信息对应的坐标信息;
信息搜索模块,用于将确定的坐标信息对应的内容信息确定为搜索结果。
9.根据权利要求8所述的装置,其特征在于,所述搜索策略包括根据所述待搜索表格的结构、和/或所述待搜索表格的行表头和列表头的内容确定的,不同位置特征的搜索关键字的处理顺序;以及为确定各搜索关键字的位置,使用的搜索命令;
所述命令确定模块,具体用于:
对搜索指示中包含的搜索关键字进行解析,确定各搜索关键字在所述待搜索表格中的位置特征;
根据所述搜索策略,确定对所述搜索关键字的处理顺序,以及为确定各搜索关键字的位置使用的搜索命令;
按照所述处理顺序对确定的搜索命令排序,得到对所述待搜索表格内容进行搜索采用的搜索命令组。
10.根据权利要求8所述的装置,其特征在于,还包括:
处理模块,用于通过如下任意一种或任意多种处理方式对所述搜索结果进行处理:
持久化存储处理方式、预设特征信息提取处理方式、表达式计算处理方式、字符串拆分处理方式、字符串联接处理方式和文本映射处理方式;
其中,所述持久化存储处理方式包括将所述搜索结果进行存储;
所述预设特征信息提取处理方式包括从所述搜索结果中提取具有预设特征的信息;
所述表达式计算处理方式包括将所述搜索结果作为自变量输入至预设表达式,输出对应的计算结果;
所述字符串拆分处理方式包括按照预设拆分规则将所述搜索结果进行拆分;
所述字符串联接处理方式包括按照预设联接规则将所述搜索结果与待联接信息进行联接;
所述文本映射处理方式包括按照预设映射规则将所述搜索结果进行文本映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810846525.5A CN110765079B (zh) | 2018-07-27 | 2018-07-27 | 一种表格信息的搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810846525.5A CN110765079B (zh) | 2018-07-27 | 2018-07-27 | 一种表格信息的搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765079A true CN110765079A (zh) | 2020-02-07 |
CN110765079B CN110765079B (zh) | 2022-09-20 |
Family
ID=69327036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810846525.5A Active CN110765079B (zh) | 2018-07-27 | 2018-07-27 | 一种表格信息的搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765079B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523019A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111836A (zh) * | 2004-03-31 | 2008-01-23 | 咕果公司 | 用于信息捕获及检索的方法及系统 |
CN101127034A (zh) * | 2006-08-18 | 2008-02-20 | 国际商业机器公司 | 面向变化的电子表格应用 |
CN101447017A (zh) * | 2008-11-27 | 2009-06-03 | 浙江工业大学 | 一种基于版面分析的选票快速识别统计方法及系统 |
CN102043819A (zh) * | 2009-10-20 | 2011-05-04 | 华中科技大学 | Html表格语义脉络分析方法 |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN103279455A (zh) * | 2013-06-28 | 2013-09-04 | 中国农业银行股份有限公司 | 电子表格的样式处理方法和装置 |
CN103455498A (zh) * | 2012-05-30 | 2013-12-18 | 重庆长安汽车股份有限公司 | 一种基于超文本的表格关键字信息定位方法 |
CN104376026A (zh) * | 2013-08-18 | 2015-02-25 | 复旦大学 | 基于网格和多维树混合结构的表格查找方法 |
CN104484321A (zh) * | 2015-01-04 | 2015-04-01 | 税友软件集团股份有限公司 | 一种二维表格定义的方法及系统 |
US20150242456A1 (en) * | 2014-02-27 | 2015-08-27 | Commodities Square LLC | System and method for electronic data reconciliation and clearing |
US20160140168A1 (en) * | 2010-05-21 | 2016-05-19 | Brokersavant Inc. | Apparatuses, methods and Systems For A lead Generating Hub |
CN106021215A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种财税数据的自动抽取方法及系统 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
-
2018
- 2018-07-27 CN CN201810846525.5A patent/CN110765079B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111836A (zh) * | 2004-03-31 | 2008-01-23 | 咕果公司 | 用于信息捕获及检索的方法及系统 |
CN101127034A (zh) * | 2006-08-18 | 2008-02-20 | 国际商业机器公司 | 面向变化的电子表格应用 |
CN101447017A (zh) * | 2008-11-27 | 2009-06-03 | 浙江工业大学 | 一种基于版面分析的选票快速识别统计方法及系统 |
CN102043819A (zh) * | 2009-10-20 | 2011-05-04 | 华中科技大学 | Html表格语义脉络分析方法 |
US20160140168A1 (en) * | 2010-05-21 | 2016-05-19 | Brokersavant Inc. | Apparatuses, methods and Systems For A lead Generating Hub |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
CN103455498A (zh) * | 2012-05-30 | 2013-12-18 | 重庆长安汽车股份有限公司 | 一种基于超文本的表格关键字信息定位方法 |
CN103279455A (zh) * | 2013-06-28 | 2013-09-04 | 中国农业银行股份有限公司 | 电子表格的样式处理方法和装置 |
CN104376026A (zh) * | 2013-08-18 | 2015-02-25 | 复旦大学 | 基于网格和多维树混合结构的表格查找方法 |
US20150242456A1 (en) * | 2014-02-27 | 2015-08-27 | Commodities Square LLC | System and method for electronic data reconciliation and clearing |
CN104484321A (zh) * | 2015-01-04 | 2015-04-01 | 税友软件集团股份有限公司 | 一种二维表格定义的方法及系统 |
CN106021215A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种财税数据的自动抽取方法及系统 |
CN108197216A (zh) * | 2017-12-28 | 2018-06-22 | 深圳市巨鼎医疗设备有限公司 | 一种信息处理的方法 |
Non-Patent Citations (4)
Title |
---|
K. NANTHINI 等: "Construction of Dependency Structure Matrix (DSM) for e-books using ontology based text mining", 《INTERNATIONAL CONFERNCE ON INNOVATION INFORMATION IN COMPUTING TECHNOLOGIES》 * |
KUN BAI 等: "Automatic extraction of table metadata from digital documents", 《PROCEEDINGS OF THE 6TH ACM/IEEE-CS JOINT CONFERENCE ON DIGITAL LIBRARIES (JCDL "06)》 * |
何毅 等: "基于Android平台文件浏览与PDF转换的研究与实践", 《电子世界》 * |
霏说影剧: "表格中怎么快速查找指定值并返回对应的某个值", 《百度经验HTTPS://JINGYAN.BAIDU.COM/ARTICLE/219F4BF78296D5DE442D38C7.HTML》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523019A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110765079B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102204971B1 (ko) | 검색어를 위한 오류 정정 방법 및 기기 | |
CN105045781B (zh) | 查询词相似度计算方法及装置、查询词搜索方法及装置 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
US20180060287A1 (en) | Expanding input content utilizing previously-generated content | |
US9298757B1 (en) | Determining similarity of linguistic objects | |
CN104169912A (zh) | 信息处理终端和方法,以及信息管理设备和方法 | |
JP2010256951A (ja) | 類似データ検索装置及びそのプログラム | |
CN105550359A (zh) | 一种基于垂直搜索的网页排序方法、装置及服务器 | |
CN108153728B (zh) | 一种关键词确定方法及装置 | |
CN107168966B (zh) | 一种搜索引擎索引构建方法及装置 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN114861598A (zh) | 注释方法、注释装置、电子设备及存储介质 | |
CN110765079B (zh) | 一种表格信息的搜索方法及装置 | |
CN111160445B (zh) | 投标文件相似度计算方法及装置 | |
CN109508390B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN108776705B (zh) | 一种文本全文精确查询的方法、装置、设备及可读介质 | |
CN116226681A (zh) | 一种文本相似性判定方法、装置、计算机设备和存储介质 | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN113420219A (zh) | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 | |
CN112183074A (zh) | 一种数据增强方法、装置、设备及介质 | |
KR101452638B1 (ko) | 유사 문자열 검색 방법 및 장치 | |
KR20160001167A (ko) | 데이터베이스에서 데이터 이동을 처리하는 방법 및 장치 | |
CN116361517B (zh) | 一种企业字号查重方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 101-8, 1st floor, building 31, area 1, 188 South Fourth Ring Road West, Fengtai District, Beijing Applicant after: Guoxin Youyi Data Co.,Ltd. Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing Applicant before: SIC YOUE DATA Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |